В пресс-службе Яндекса сообщили, что YandexGPT создала первоклассные примеры текстов, на базе которых была обучена нейросеть в Яндекс Переводчике.
Это усовершенствование позволило сервису более точно интерпретировать контекст, распознавать устойчивые выражения и адаптироваться к профессиональной терминологии. Теперь он лучше справляется с длинными и сложными текстами, определяя связи как внутри предложений, так и между ними.
Качество перевода статей узкой специализации также значительно повысилось:
Сервис теперь способен корректно распознавать контекст, например, различать названия языков программирования и фондовых индексов, оставляя их без перевода.
Новая технология используется для перевода текстов с английского на русский язык в Яндекс Переводчике, Поиске и при переводе видео в Браузере.
- С 2018 года Яндекс использует нейросети для машинного перевода. Нейросеть Переводчика обучалась исключительно на парах текстов — оригиналов и их переводов на другой язык.
- Таким образом, она училась выявлять взаимосвязи и воспроизводить их.
- Нейросеть у Яндекса легковесная, что позволяет обрабатывать большое количество запросов пользователей в реальном времени.
YandexGPT способна генерировать сложные и стилистически разнообразные тексты, включая термины узкой специализации. Компания решила использовать этот потенциал для создания эталонных примеров с целью улучшения датасета и повышения его качества. В результате нейросеть в Переводчике стала умнее, не потеряв при этом скорости работы.
Яндекс сообщил, что для генерации эталонных примеров компания разработала специализированную модель из семейства YandexGPT, адаптировав её под задачи перевода:
Сначала на этапе pretraining модель проанализировала множество текстов на английском и русском языках, изучая правила лексики, морфологии и синтаксиса. Затем следовала тонкая настройка языковой модели (supervised finetuning) под задачи перевода. На этапе reinforcement learning AI-тренеры оценивали качество перевода YandexGPT, ранжируя её ответы от лучших к худшим.
Компания утверждает, что качество работы дообученной нейросети в Переводчике оценивалось методом Side by Side (SbS). Асессоры, владеющие русским и английским языками, сравнивали пары длинных и сложных текстов, переведённых разными версиями технологии, и выбирали лучший вариант:
- В 57% случаев новая версия оказалась лучше.
Изображение заглавное: Яндекс