Модель способна выполнять задачи в таких областях казахского языка, как лексика, морфология, семантика, сообщает Vecher.kz.
Национальный научно-практический центр «Тіл-Қазына» при Комитете языковой политики Министерства науки и высшего образования представил первые результаты «Модели обучения казахскому языку «Tilqazyna» на основе искусственного интеллекта.
На данный момент модель способна выполнять задачи в таких областях казахского языка, как лексика, морфология, семантика и др. В частности, она может генерировать текст на казахском языке, создавать перифразы, работать с контекстом, сокращать тексты, исправлять грамматические и пунктуационные ошибки, раскрывать значения фразеологизмов, а также переводить термины.
Эта отраслевая LLM модель уже загружена на платформу Hugging Face и доступна всем пользователям. Использование данной модели позволит разрабатывать множество IT-продуктов на казахском языке с помощью искусственного интеллекта. Это соответствует Посланию Президента Касым-Жомарта Токаева, в котором подчеркивалась важность превращения Казахстана в страну, широко использующую искусственный интеллект и развивающую цифровые технологии.
При разработке модели эксперты центра «Тіл-Қазына» применяли алгоритмы обработки естественного языка и целенаправленно анализировали большие объемы данных. В частности:
- для проверки слов использовались 684 876 лексических единиц;
- для улучшения системы проверки словосочетаний было использовано 20 212 правильных и ошибочных вариантов;
- для исправления пунктуационных ошибок проанализировано 5 558 текстов;
- для коррекции структуры текста было подготовлено 3 000 правильных и неправильных версий текстов;
- для функции сокращения предложений создана база из 6 000 полных и сокращенных предложений;
- для функции перифраза собрано 14 790 синонимических рядов;
- общий объем обработанного корпуса казахского языка составил 35 ГБ.
В этом году в модель будет добавлена функция голосового общения, и будет разработан удобный интерфейс для пользователей. Также проект будет способен обучать казахскому языку на уровнях A1, A2 и B1, а к 2026 году – на уровнях B2 и C1.
Конечным результатом проекта станет голосовой помощник, способный создавать индивидуальную программу обучения казахскому языку в зависимости от уровня знания языка пользователя. Он будет представлен в виде мобильного приложения для систем IOS и Android.
Ранее Главе государства были представлены отечественные разработки в сфере искусственного интеллекта.