Нейросети начнут грамотнее писать по‑русски благодаря исследованиям МГУ и Яндекса

26 Ноя в 14:14

Яндекс совместно с Институтом искусственного интеллекта МГУ разработал первый открытый датасет и метод обучения нейросетей для работы со сложными правилами русского языка. Об этом компания рассказала на Конгрессе молодых учёных.

Датасет LORuGEC содержит примеры из заданий ЕГЭ и олимпиад с экспертной разметкой лингвистов, что позволяет обучать модели точечному исправлению ошибок без полной переформулировки текста. На основе этого набора данных можно создавать обучающие сервисы, которые не только исправляют ошибки, но и объясняют соответствующие языковые нормы.

LORuGEC охватывает 48 правил русского языка, включая примеры неверной пунктуации в сложноподчинённых конструкциях, ошибки в слитном и раздельном написании слов с «не», а также случаи несогласования подлежащего и сказуемого в сложных предложениях.

В датасет включено почти 1 000 предложений, каждое из которых соотнесено с конкретной языковой нормой.

Датасет и метод дообучения опубликованы в открытом доступе, поэтому исследователи и разработчики могут использовать их, например, при создании образовательных сервисов для школьников и студентов.

Согласно внутренним тестам Яндекса, новый метод повысил точность исправления сложных ошибок на 5–10% по метрике F0,5. В частности, точность YandexGPT 5 Pro составила 83%, а YandexGPT 5 Lite — 71%.

В Яндексе также отметили, что статья о датасете и методе дообучения нейросетей получила приз за лучшую работу на воркшопе по инновационному применению ИИ в образовании, прошедшем в рамках международной конференции ACL 2025 по компьютерной лингвистике (A*).

Источник

Комментарии для сайта Cackle

Нейросети начнут грамотнее писать по‑русски благодаря исследованиям МГУ и Яндекса

Паблик ВКонтакте

Последние посты