Компания «Яндекс» объявила о внедрении гибридной системы перевода: ожидается, что новый подход позволит повысить качество выдаваемых результатов.
Сервис «Яндекс.Переводчик» изначально использовал статистическую модель. При переводе она разделяет предложения на куски (отдельные слова и фразы) и для каждого из них подбирает все возможные переводы с указанием их вероятности. Затем система составляет из переведённых фрагментов разные варианты нового предложения. Выбирается тот вариант, который содержит переводы с высокими вероятностями и в котором фрагменты хорошо сочетаются друг с другом.
Достоинством метода является то, что система хорошо запоминает и переводит редкие и сложные слова и фразы. Недостаток — «машинность» перевода: текст как бы собран из отдельных кусков.
Теперь к статистическому переводу добавляется перевод на основе нейронной сети. Как и статистический переводчик, нейронная сеть анализирует массив параллельных текстов и учится находить в них закономерности. При этом логика несколько иная: нейросеть работает с целыми предложениями, то есть не происходит дробление на слова и фразы. Такой подход, как утверждается, позволяет учесть смысловые связи внутри предложения, то есть понять контекст. В результате, перевод получается более естественным.
Но у нейросетевого перевода тоже есть свои недостатки: если по каким-то причинам системе не удаётся перевести то или иное предложение, она начинает попросту угадывать правильный ответ.
Поэтому «Яндекс» внедрил гибридную систему. Теперь перевод выполняют обе модели, а затем алгоритм на основе метода машинного обучения CatBoost сравнивает результаты и предлагает лучший.
Сейчас гибридная система используется в веб-версии «Яндекс.Переводчика» для переводов с английского языка на русский. В ближайшие месяцы она заработает и для других направлений.
Источник: