Яндекс совместно с Институтом искусственного интеллекта МГУ разработал первый открытый датасет и метод обучения нейросетей для работы со сложными правилами русского языка. Об этом компания рассказала на Конгрессе молодых учёных.
Датасет LORuGEC содержит примеры из заданий ЕГЭ и олимпиад с экспертной разметкой лингвистов, что позволяет обучать модели точечному исправлению ошибок без полной переформулировки текста. На основе этого набора данных можно создавать обучающие сервисы, которые не только исправляют ошибки, но и объясняют соответствующие языковые нормы.
- LORuGEC охватывает 48 правил русского языка, включая примеры неверной пунктуации в сложноподчинённых конструкциях, ошибки в слитном и раздельном написании слов с «не», а также случаи несогласования подлежащего и сказуемого в сложных предложениях.
- В датасет включено почти 1 000 предложений, каждое из которых соотнесено с конкретной языковой нормой.
- Датасет и метод дообучения опубликованы в открытом доступе, поэтому исследователи и разработчики могут использовать их, например, при создании образовательных сервисов для школьников и студентов.
Согласно внутренним тестам Яндекса, новый метод повысил точность исправления сложных ошибок на 5–10% по метрике F0,5. В частности, точность YandexGPT 5 Pro составила 83%, а YandexGPT 5 Lite — 71%.
В Яндексе также отметили, что статья о датасете и методе дообучения нейросетей получила приз за лучшую работу на воркшопе по инновационному применению ИИ в образовании, прошедшем в рамках международной конференции ACL 2025 по компьютерной лингвистике (A*).

