Яндекс анонсировал обновлённую версию машинного перевода

Яндекс анонсировал обновлённую версию машинного перевода

В пресс-службе Яндекса сообщили, что YandexGPT создала первоклассные примеры текстов, на базе которых была обучена нейросеть в Яндекс Переводчике.

Это усовершенствование позволило сервису более точно интерпретировать контекст, распознавать устойчивые выражения и адаптироваться к профессиональной терминологии. Теперь он лучше справляется с длинными и сложными текстами, определяя связи как внутри предложений, так и между ними.

Качество перевода статей узкой специализации также значительно повысилось:

Изображение: Яндекс
Сервис теперь способен корректно распознавать контекст, например, различать названия языков программирования и фондовых индексов, оставляя их без перевода.

Новая технология используется для перевода текстов с английского на русский язык в Яндекс Переводчике, Поиске и при переводе видео в Браузере.

  • С 2018 года Яндекс использует нейросети для машинного перевода. Нейросеть Переводчика обучалась исключительно на парах текстов — оригиналов и их переводов на другой язык.
  • Таким образом, она училась выявлять взаимосвязи и воспроизводить их.
  • Нейросеть у Яндекса легковесная, что позволяет обрабатывать большое количество запросов пользователей в реальном времени.

YandexGPT способна генерировать сложные и стилистически разнообразные тексты, включая термины узкой специализации. Компания решила использовать этот потенциал для создания эталонных примеров с целью улучшения датасета и повышения его качества. В результате нейросеть в Переводчике стала умнее, не потеряв при этом скорости работы.

Яндекс сообщил, что для генерации эталонных примеров компания разработала специализированную модель из семейства YandexGPT, адаптировав её под задачи перевода:

Изображение: Яндекс
Сначала на этапе pretraining модель проанализировала множество текстов на английском и русском языках, изучая правила лексики, морфологии и синтаксиса. Затем следовала тонкая настройка языковой модели (supervised finetuning) под задачи перевода. На этапе reinforcement learning AI-тренеры оценивали качество перевода YandexGPT, ранжируя её ответы от лучших к худшим.

Компания утверждает, что качество работы дообученной нейросети в Переводчике оценивалось методом Side by Side (SbS). Асессоры, владеющие русским и английским языками, сравнивали пары длинных и сложных текстов, переведённых разными версиями технологии, и выбирали лучший вариант:

  • В 57% случаев новая версия оказалась лучше.

Изображение заглавное: Яндекс

 

Источник