Недалёкость Google Translate

07.02.2018

292

Программа использует передовые ИИ-технологии, но простейшие тесты говорят о том, что ей ещё далеко до реального понимания

Автор статьи — Дуглас Ричард Хофштадтер — американский физик и информатик; сын лауреата Нобелевской премии по физике Роберта Хофштадтера. Получил всемирную известность благодаря книге «Гёдель, Эшер, Бах: эта бесконечная гирлянда», опубликованной в 1979 году и в 1980 году получившей Пулитцеровскую премию в категории «Нехудожественная литература».

Как-то в воскресенье на еженедельных занятиях сальсой мой друг Фрэнк привёл с собой гостью из Дании. Я знал, что Фрэнк неплохо говорит на датском, поскольку его мать родом оттуда и он ребёнком жил в Дании. Подруга его бегло говорила по-английски, что для скандинавских стран считается нормой. Однако, к моему удивлению, в процессе общения выяснилось, что эта парочка обычно обменивается электронными письмами, переведёнными Google Translate (GT). Фрэнк пишет сообщение на английском, прогоняет через GT, чтобы получить текст на датском; она, наоборот, пишет по-датски, а затем позволяет GT перевести текст на английский. Как странно! Зачем же двум умным людям, говорящим на языке друг друга, заниматься такими вещами? Мой опыт использования ПО для машинных переводов всегда приводил меня к скептическим оценкам его возможностей. Но эти двое явно не разделяли мой скептицизм. Многие интеллигентные люди очарованы возможностями программ-переводчиков, и находят мало поводов для их критики. Это меня поражает.

Я люблю языки и со всей страстью занимаюсь переводами. Я специалист по когнитивистике и всю жизнь интересовался тонкостями работы человеческого разума, поэтому уже десятилетиями слежу за механизацией переводов. Впервые я заинтересовался этим вопросом в середине 1970-х, когда наткнулся на письмо от 1947 года, написанное математиком Уорреном Уивером, ранним сторонником машинных переводов, адресованное основоположнику кибернетики Норберту Винеру, в котором Уивер сделал интересное заявление, довольно знаменитое в наши дни:

Когда я смотрю на русскую статью, я говорю: «Это на самом деле написано по-английски, просто зашифровано при помощи странных символов. А теперь я перейду к расшифровке».

Через несколько лет он предложил уже другую точку зрения: «Ни один разумный человек не будет считать, что машинный перевод когда-нибудь сможет достичь элегантности и стиля. Пушкину не стоит бояться». Я вспоминаю один незабываемый напряжённый год жизни, потраченный мною на перевод блестящей новеллы Александра Пушкина «Евгений Онегин» на свой родной язык (я радикально переработал величайшее русское произведение, превратив его в английскую повесть в стихах), и нахожу это замечание Уивера гораздо более верным, чем первое, демонстрировавшее до странности упрощённое представление о языках. Тем не менее, его взгляд от 1947 года на перевод как расшифровку стал девизом, долгое время направлявшим область машинного перевода.

С тех пор машинные переводы постепенно улучшались, а недавно использование т.н. «глубинных нейросетей» даже привело некоторых наблюдателей к мысли (см. статьи «Великое пробуждение ИИ» и «Машинный перевод: за пределами Вавилона«), что люди-переводчики — это вымирающий вид. При таком развитии событий люди, работающие переводчиками, через несколько лет превратятся в простых контролёров качества и корректоров мелких ошибок, и не будут выдавать свежие тексты целиком.

Такой сценарий вызвал бы у меня сокрушительный духовный переворот. Хотя я понимаю стремление научить машины хорошо переводить тексты, я вовсе не хочу увидеть, как людей-переводчиков заменят мёртвые машины. Эта идея пугает меня и вызывает отвращение. По-моему, перевод — невероятно утончённое искусство, постоянно требующее многих лет опыта и творческого воображение. Если в один «прекрасный» день люди-переводчики станут реликвиями прошлого, моё уважение к человеческому разуму будет поколеблено, и этот шок оставит меня в невероятном смятении и грусти.

Каждый раз, читая статью о том, как гильдия людей-переводчиков вскоре будет вынуждена склонить голову перед страшно быстрым мечом той или иной новой технологии, я чувствую необходимость проверить эти заявления самостоятельно, в частности из-за боязни того, что этот кошмар уже подошёл очень близко, а также из-за надежды и стремления убедить себя в том, что он не так уж и близок, и, наконец, из-за моего давнего убеждения в необходимости бороться с преувеличением достижений ИИ. Поэтому, почитав про то, как старая идея искусственных нейросетей, недавно принятая на вооружение подразделением компании Google под названием Google Brain, и улучшенная при помощи «глубинного обучения», привела к появлению программы нового типа, якобы произведшей «революцию» в машинных переводах, я понял, что мне нужно проверить последнюю версию GT. Правда ли она изменила область переводов так, как удалось это сделать Deep Blue и AlphaGo в области таких почтенных игр, как шахматы и го?

Я узнал, что хотя старая версия GT работала с очень большим ассортиментом языков, новая сначала работала всего с девятью — правда, потом расширила набор до 96. Я ограничил свои исследования такими поддерживаемыми языками, как английский, французский, немецкий и китайский [для интереса добавим и русский язык / прим. перев.]

Перед демонстрацией открытий стоит упомянуть двусмысленность слова «глубинный». Когда человек слышит о том, как Google купила компанию DeepMind, выпускавшую «глубинные нейросети» с «глубинным обучением», он сразу же воспринимает эти названия в значениях вроде «выдающийся», «способный на многое», «проницательный», «мудрый». При этом слово «глубинный» обозначает лишь тот факт, что у этих нейросетей слоёв больше (допустим, 12), чем у более старых вариантов, у которых их могло быть два или три. Следует ли из такой глубины, что такая сеть обладает какой-то мудростью? Навряд ли. Это словесный пиар.

Я с большим подозрением отношусь к GT, особенно из-за окружающей его шумихи. Но, несмотря на неприязнь, я признаю существование удивительных фактов, связанных с этим нелюбимым мною продуктом. Он доступен любому человеку на Земле совершенно бесплатно, и может преобразовывать текст на любом из почти сотни языков в текст на любом другом языке. Это достойно уважения. Если я с гордостью называю себя «пи-язычным» (то есть, в сумме количество известных мне языков немного превышает три — это мой шутливый способ отвечать на вопрос, «Сколько языков ты знаешь»), тогда насколько же сильнее может гордиться собой GT, если он может называть себя «бай-язычным» («бай» на мандаринском означает 100). Пиязычного человека весьма впечатляет байязычность. Более того, Если я скопирую страничку на языке А в GT, то на получение странички из слов на языке Б уйдёт всего несколько секунд. И всё это происходит постоянно, на экранах по всей планете, на десятках языков.

Практическую пользу GT и похожих технологий нельзя отрицать, и в принципе, они приносят нам пользу, но в таком подходе всё же чего-то явно не хватает, и это можно описать одним словом: понимание. Машинный перевод никогда не концентрировался на понимании языка. Вместо этого в этой области всегда пытались заниматься «расшифровкой» — то есть, справиться с задачей, не заморачиваясь тем, что такое понимание и смысл. Может ли оказаться так, что для осуществления хорошего перевода понимание не нужно? Может ли некто, человек или машина, выдавать перевод высокого качества, не обращая внимания на смысл языка? Чтобы пролить свет на этот вопрос, обратимся к проделанным мною экспериментам.

* * *

Начну свои изыскания со скромных примеров — с короткой ремарки, которая сразу вызывает чёткое представление у человека:

In their house, everything comes in pairs. There’s his car and her car, his towels and her towels, and his library and hers.

Перевод GT:
В их доме все приходит парами. Там его машина и ее машина, полотенца и полотенца, а также его библиотека и ее.

Перевод человека:
В их доме у всего есть своя пара. Есть его машина, и её машина, его полотенца и её полотенца, его библиотека и её.

Задача перевода кажется недвусмысленной, но в французском языке (и других романских языках) слова «его» и «её», обозначающие вещи, ставятся не в роде владельца, а в роде самой вещи. Вот что выдал мне GT:

Dans leur maison, tout vient en paires. Il y a sa voiture et sa voiture, ses serviettes et ses serviettes, sa bibliothèque et les siennes.

Программа попалась в мою ловушку, не поняв, как понял бы любой человек, что я описывал пару, у которой для каждой его вещи была и её вещь. К примеру, нейросеть с глубинным обучением использовала слово sa как для его машины, так и для её машины, поэтому о поле владельца машины мы ничего сказать не можем. Точно так же она использовала бесполое слово ses для множественного числа «его полотенец» и «её полотенец», а в последнем случае, с библиотеками, её сбила с толку последняя буква s в hers, и она как-то решила, что тут s обозначает множественное число (les siennes). Предложение, переведённое GT на французский, потеряло смысл.

Затем я сам перевёл эту фразу на французский, так, чтобы в ней сохранился первоначальный смысл. Вот моя версия:

Chez eux, ils ont tout en double. Il y a sa voiture à elle et sa voiture à lui, ses serviettes à elle et ses serviettes à lui, sa bibliothèque à elle et sa bibliothèque à lui.

Фраза sa voiture à elle обозначает «её машину», а sa voiture à lui — его машину. После этого я решил, что для GT будет тривиальной задачей перевести мой французский перевод обратно на английский и получить правильную английскую версию — но я жестоко ошибался. Вот, что он мне выдал:

At home, they have everything in double. There is his own car and his own car, his own towels and his own towels, his own library and his own library.

Что, простите? Даже несмотря на то, что входное предложение недвусмысленно заявляет о поле владельцев, переводящая машина проигнорировала эти заявления и приписала всё мужскому полу. Почему она выбросила самую важную информацию из предложения?

Людям известно много всякого о парах, домах, личных вещах, гордости, соперничестве, ревности, личной жизни, и множестве других неосязаемых вещей, приводящих к таким капризам, как полотенца с вышивкой «его» и «её». GT такие тонкости неизвестны. GT вообще неизвестны тонкости. Ему знакомы только строчки, состоящие из слов, состоящих из букв. Он занимается сверхбыстрой обработкой кусков текста, он не думает, не представляет, не вспоминает, не понимает. Он даже не знает, что слова обозначают вещи. Спешу заявить, что в принципе, компьютерная программа могла бы узнать, зачем нужен язык, и у неё могли бы быть идеи, память и опыт, и она могла бы их использовать — но GT разработана не для этого. Таких целей не было в планах его разработчиков.

В общем, я посмеялся над результатами, с облегчением увидев, что мы ещё не подошли близко к тому, чтобы заменить переводчиков машинами. Но мне всё же казалось, что стоит изучить машину подробнее. Одним глотком жажды не утолить.

И кстати, как насчёт этой фразы — «одним глотком жажды не утолить» (намекающей, конечно, на поговорку «одна ласточка весны не делает»? [англ. one swallow does not a summer make — слово swallow переводится и как «глоток», и как «ласточка». В английском варианте одна ласточка не делает лета. / прим. перев.] Не мог удержаться, чтобы не проверить. И вот, что мне выдал GT: » Une hirondelle n’aspire pas la soif» [по-русски GT выдал «одна ласточка не утоляет жажду» / прим. перев.]. Грамматически это предложение французское, но понять его тяжело. Сначала там упоминается птица (une hirondelle — ласточка), затем говорится, что птица не вдыхает, или не всасывает (n’aspire pas), и наконец, указывается, что то, что не всасывает птица — это жажда (la soif). GT явно не понял смысла фразы — просто выдал кучу бычьего дерьма. “Il sortait simplement avec un tas de taureau.” “He just went out with a pile of bulls.” “Il vient de sortir avec un tas de taureaux.” Простите мой французский — или, точнее, псевдо-французский GT.

* * *

Из огня французского прыгнем в полымя немецкого. В последнее время я погружён в книгу Sie nannten sich der Wiener Kreis (Они называли себя Венским кружком) австрийского математика Карла Зигмунда. Она описывает группу идеалистов-интеллектуалов из Вены 1920-1930-х, серьёзно повлиявших на философию и науку во второй половине XX века. Я выбрал небольшое предложение из книги Зигмунда и дал его GT. Вот оно, сначала по-немецки, затем идёт мой перевод, потом — GT. (Я, кстати, проверил мой перевод у двух носителей немецкого, включая Карла Зигмунда — так что можно считать его точным).

Зигмунд:

Nach dem verlorenen Krieg sahen es viele deutschnationale Professoren, inzwischen die Mehrheit in der Fakultät, gewissermaßen als ihre Pflicht an, die Hochschulen vor den “Ungeraden” zu bewahren; am schutzlosesten waren junge Wissenschaftler vor ihrer Habilitation. Und Wissenschaftlerinnen kamen sowieso nicht in frage; über wenig war man sich einiger.

Хофштадтер:

After the defeat, many professors with Pan-Germanistic leanings, who by that time constituted the majority of the faculty, considered it pretty much their duty to protect the institutions of higher learning from “undesirables.” The most likely to be dismissed were young scholars who had not yet earned the right to teach university classes. As for female scholars, well, they had no place in the system at all; nothing was clearer than that.

Google Translate:

After the lost war, many German-National professors, meanwhile the majority in the faculty, saw themselves as their duty to keep the universities from the “odd”; Young scientists were most vulnerable before their habilitation. And scientists did not question anyway; There were few of them.

GT, русский:

После проигранной войны многие немецко-национальные профессора, теперь большинство на факультете, считали своим долгом защищать университеты от «странных»; наиболее уязвимыми были молодые ученые до их абилитации. И женщины-ученые все равно не сомневались; их было несколько.

Человеческий русский:

После поражения многие профессора, склонные к немецкому национализму (а их к тому времени в руководстве факультета было большинство), сочли своим долгом защищать высшие учебные заведения от «нежелательных элементов». Вероятнее всего могли получить отказ молодые научные работники, пока не заслужившие права преподавать. Для научных работников женского пола места в этой системе вообще не было; это было яснее ясного.

Перевод GT состоит из английских слов (пусть, по непонятным причинам, парочка из них почему-то начинается с большой буквы). Пока неплохо! Но вскоре весь перевод начинает расплываться, и чем дальше, тем он становится расплывчатее.

Возьмём сначала the “odd” [англ. odd — странный, нечётный, непарный]. Это соответствует немецкому die ‘Ungeraden’, означающему «люди, нежелательные по политическим мотивам». Но у GT была причина — чистая статистика — использовать слово «odd». А именно: в его огромной двуязычной базе данных слово ungerade почти всегда переводится, как odd. Хотя машина и не понимает, почему так, я могу объяснить. Всё оттого, что ungerade — буквально означающее «непрямой» или «неровный» — почти всегда означает «нечётный». А мой выбор слова undesirables [нежелательные элементы] не имеет ничего общего со статистикой слов, а происходит из моего понимания ситуации — понимания идеи, не указанной в тексте напрямую, и не присутствующей в списке вариантов перевода слова ungerade ни в одном из немецких словарей.

Перейдём к Habilitation, обозначающий статус преподавателя, напоминающий штатного сотрудника института. Английская калька habilitation [получивший квалификацию] существует, но используется крайне редко, и уж точно не напоминает о штатных сотрудников. Поэтому я кратко пояснил эту идею, а не стал просто использовать редкое слово, потому что такой механический подход ничего не дал бы англоязычным читателям. Конечно, GT никогда такого не сделает, у него нет модели знаний его читателей.

Последние два предложения чётко демонстрируют критическую важность понимания для правильного перевода. Немецкое слово из 15 букв Wissenschaftler означает «учёный» или «научный работник» [“scientist” / “scholar”]. Я выбрал последний вариант, так как он обозначает всех интеллектуалов в общем. GT не распознал этих тонкостей. Связанное с ним слово из 17 букв Wissenschaftlerin в заключительном предложении, стоящее во множественном числе, Wissenschaftlerinnen — последствие употребления родов в немецких существительных. Короткое существительное грамматически относится к мужскому роду, поэтому означает мужчину-научного работника, а длинное — к женском, и применимо только к женщинам. Поэтому я написал «научных работников женского пола». GT, тем временем, не понял, что главным в предложении был женский суффикс -in. Поскольку он не понял, что женщин исключили из рассмотрения, машина просто ещё раз использовала слово «учёный», совершенно упустив весь смысл предложения [интересно, что GT на русский перевёл это более верно / прим. перев.]. Как и в случае с французским, у GT не было ни малейшего представления о том, что единственной целью немецкого предложения было выявить контраст между мужчинами и женщинами.

Ну и кроме этой ошибки, остаток последнего предложения — это полный кошмар. Возьмём первую часть. Неужто “scientists did not question anyway” правда будет переводом “Wissenschaftlerinnen kamen sowieso nicht in frage”? Они совершенно не совпадают по смыслу. Предложение просто состоит из английских слов, понадёрганных на основании немецких. И что, этого достаточно для того, чтобы описать некий выходной текст, как «перевод»? [в варианте перевода на русский кошмар сохраняется / прим. перев.]

Вторая часть настолько же ошибочна. Последние шесть слов по-немецки буквально означают «мало над чем были более объединены», или, более гладко, «мало существовало тем, по поводу которых согласие людей было сильнее» [“over little was one more united” / “there was little about which people were more in agreement”] — однако GT превратил эту ясную идею в «их было несколько» [в английском и русском примерно одинаково / прим. перев.]. Озадаченные люди могут спросить «кого было несколько?», но для механического слушателя этот вопрос не имел бы смысла. У GT нет идей о происходящем за кулисами, и он никак не смог бы ответить на такой, вроде бы простой, вопрос. Программа перевода не представляла себе большие или малые количества или числа или вещи. Она просто швырялась символами, без малейшего понятия о том, что они могут что-то символизировать.

* * *

Человеку, всю жизнь набиравшему опыт, понимание, и использовавшему слова осмысленно, очень сложно понять, насколько лишены содержимого слова, выбрасываемые на экран машиной GT. Людям почти невозможно устоять перед предположением, что ПО, так хорошо работающее со словами, должно понимать их значение. Эта классическая иллюзия, связанная с ИИ, называется «эффектом Элизы«, поскольку одной из первых программ, заставивших людей поверить в то, что она вроде бы понимает английский, ещё в 1960-х годах стала бесполезный манипулятор фразами «ELIZA», притворявшийся психотерапевтом. У многих людей, взаимодействовавших с программой, создавалось сверхъестественное ощущение того, что она понимает их глубинные чувства.

Десятилетиями умные люди — даже исследователи ИИ — попадали под влияние эффекта Элизы. Чтобы мои читатели не попали в эту ловушку, позвольте мне процитировать некоторые фразы из текста выше — «GT не понимал», «не осознавал», «У GT не было ни малейшей идеи». Парадоксально, что, хотя эти фразы твердят об отсутствии понимания, они почти что намекают на то, что GT может, хоть иногда, понимать значение слова, фразы или предложения. Но это не так. GT просто обходит вопрос понимания языка.

Для меня слово «перевод» обладает загадочной аурой, навевающей воспоминания. Оно обозначает чрезвычайно человеческий вид искусства, грациозно превращающий чёткие идеи языка А в чёткие идеи языка Б. Это налаживание контактов не только должно поддерживать ясность, но и передавать оттенки, нюансы и отличительные особенности стиля письма изначального автора. Когда я занимаюсь переводом, я сначала тщательно читаю оригинальный текст, усваиваю идеи как можно яснее, позволяю им побултыхаться в моём сознании. В сознании бултыхаются не слова — идеи, вызывающие всяческие связанные с ними идеи, создающие богатое гало из сопутствующих сценариев в моей голове. Большая часть этого гало, конечно, находится в бессознательном. Только когда гало в моём сознании достаточно пробудится, я начинаю пытаться его выразить — «выдавить» — на втором языке. Я пытаюсь сказать на языке Б то, что мне кажется естественным для языка Б способом говорить о таких ситуациях, из которых состоит гало смысла, о котором идёт речь.

В общем, я не перехожу от слов и фраз языка А в слова и фразы языка Б. Вместо этого я бессознательно вызываю образы, сцены, идеи, имеющийся у меня опыт (или опыт, о котором я читал, видел в кино, слышал от друзей), и только когда это невербальное, образное, опытное, мысленное «гало» — только тогда я запускаю процесс формулирования слов и фраз в целевом языке, а потом редактирую, редактирую и редактирую. Этот процесс, посредником которого служит смысл, может казаться медлительным — и, разумеется, по сравнению с двумя секундами на страницу у GT он такой и есть — но именно его использует любой серьёзный переводчик. Что-то подобное я представляю себе, когда слышу фразу «глубинный разум».

* * *

Учтя всё это, перейду к китайскому — языку, гораздо сильнее напрягающему ПО с глубинным обучением, чем это делают два европейских языка. Для проверки я избрал трогательные мемуары Women Sa («Мы втроём») — китайского драматурга и переводчика Ян Цзян, недавно умершей в возрасте 104 лет. В книге она вспоминает переплетения жизней её самой, её мужа Цянь Чжуншу (тоже писателя и переводчика) и их дочки. Написана она не особенно замысловато, но использует живой и высокообразованный китайский язык. Я выбрал небольшой пассаж и натравил на него GT. Вот результаты, вместе с моим переводом:

Ян:

锺书到清华工作一年后，调任毛选翻译委员会的工作，住在城里，周末回校。他仍兼管研究生。
毛选翻译委员会的领导是徐永煐同志。介绍锺书做这份工作的是清华同学乔冠华同志。
事定之日，晚饭后，有一位旧友特雇黄包车从城里赶来祝贺。客去后，锺书惶恐地对我说：

他以为我要做“南书房行走”了。这件事不是好做的，不求有功，但求无过。

Хофштадтер:

After Zhongshu had worked at Tsinghua University for a year, he was transferred to the committee that was translating selected works of Chairman Mao. He lived in the city, but each weekend he would return to school. He also was still supervising his graduate students.
The leader of the translation committee of Mao’s works was Comrade Xu Yongying, and the person who had arranged for Zhongshu to do this work was his old Tsinghua schoolmate, Comrade Qiao Guanhua.
On the day this appointment was decided, after dinner, an old friend specially hired a rickshaw and came all the way from the city just to congratulate Zhongshu. After our guest had left, Zhongshu turned to me uneasily and said:
“He thought I was going to become a ‘South Study special aide.’ This kind of work is not easy. You can’t hope for glory; all you can hope for is to do it without errors.”

Google Translate:

After a year of work at Tsinghua, he was transferred to the Mao Translating Committee to live in the city and back to school on weekends. He is still a graduate student.
The leadership of the Mao Tse Translation Committee is Comrade Xu Yongjian. Introduction to the book to do this work is Tsinghua students Qiao Guanhua comrades.
On the day of the event, after dinner, an old friend hired a rickshaw from the city to congratulate. Guest to go, the book of fear in the book said to me:
He thought I had to do “South study walking.” This is not a good thing to do, not for meritorious service, but for nothing.

GT, русский:

После одного года работы в Университете Цинхуа Чжун Шу был переведен в комиссию по переводу Мао, чтобы жить в городе и вернуться в школу по выходным. Он по-прежнему занимает пост аспиранта.
Лидером избранного Комитета перевода Мао является товарищ Сюй Юнлян. Представляя Чжун Шу, чтобы выполнить эту работу, является одноклассник Цинхуа Цяо Гуанхуа.
В назначенный день, после обеда, старый друг нанял рикшу, чтобы приехать из города, чтобы поздравить. После того, как гости ушли, книга Чжун сказала мне в страхе:
Он подумал, что мне нужно сделать «южную прогулку». Это нехорошо.

Человеческий:

Когда Чжуншу год проработал в университете Цинхуа, его перевели в комитет, занятый переводами работ председателя Мао. Он жил в городе, но каждые выходные возвращался в школу. Кроме того, он всё ещё руководил своими аспирантами.
Лидером комитета по переводу работ Мао был товарищ Сюй Юнлян, а устроил Чжуншу на эту должность его старый однокурсник по Цинхуа, товарищ Цинхуа Цяо Гуанхуа.
В день, когда это назначение было утверждено, после ужина старый друг специально нанял рикшу и приехал из города только для того, чтобы лично поздравить Чжуншу. После ухода гостя Чжуншу повернулся ко мне, и сказал обеспокоенно:
Он думал, я стану «особым помощником из Южного кабинета». Это сложная работа. Надеяться на славу не приходится; остаётся только надеяться на отсутствие ошибок.

Кратко опишу странности. Во-первых, GT ни разу не упомянул Чжуншу по имени, хотя его имя (“锺书”) трижды встречается в оригинале. Сначала машина использует местоимение «he», второй раз пишет the book [книга], а третий — the book of fear in the book [книга страха в книге]. Поди догадайся! [в русском варианте загадочная «книга» появляется один раз / прим. перев.]

Вторая странность — в первом параграфе чётко указано, что Чжуншу руководит аспирантами, однако GT его самого сделал аспирантом.

Третья странность — в фразе Mao Tse Translation Committee [комитет перевода Мао Цзэдуна] треть имени председателя Мао [Mao Tse Tung] куда-то отвалилась.

Четвёртая странность — имя Yongying заменено на Yongjian.

Пятая странность — after our guest had left [после ухода нашего гостя] заменили просто на guest to go [гость идти].

Шестая странность — последнее предложение вообще лишено смысла.

Шести этих странностей уже хватает для того, чтобы пристыдить GT, но простим их и забудем. Лучше сфокусируемся на сбивающей с толку фразе, которую я встретил в тексте — фразе из пяти символов, заключённых в кавычки из последнего параграфа (“南书房行走”). Посимвольно её можно перевести как «южная комната книг идти прогуляться», но это явно неприемлемо, особенно поскольку по контексту это должно быть существительное. GT изобрёл «ходящий южный кабинет», и это не помогло.

Признаю, что китайская фраза для меня была совершенно непонятной. Буквально она значила что-то вроде движения пешком в кабинете на южной стороне некоего здания, но я знал, что это неверно — в контексте это не имело смысла. Для перевода мне нужно было найти что-то неизвестное мне в китайской культуре. И куда я обратился за помощью? К Google! (Но не к Google Translate). Я ввёл китайские символы, окружил кавычками, запустил поиск по точному совпадению. И на экран сломя голову выскочила куча веб-страниц на китайском, после чего я мучительно продирался через первые параграфы парочки первых сайтов, пытаясь понять смысл фразы.

Я обнаружил, что этот термин восходит к династии Цин (1644–1911), и обозначает работника умственного труда, помогавшего императору составлять стильные официальные сообщения, и работавшего в южном кабинете императорского дворца. Два символа, якобы обозначающие «идти прогуляться», на самом деле обозначают помощника. Поэтому, с помощью информации из поиска Google, я придумал фразу «особый помощник из южного кабинета».

Жаль, что GT сам не может воспользоваться сервисом Google Search, как это сделал я. Но опять-таки, GT не способен понять веб-страницы, хотя способен перевести их в мановение ока. Или может? Дальше я привожу удивительный фрагмент текста, который GT мгновенно выбросил мне на экран после того, как я скормил ему начало веб-сайта, с которого я получил нужную информацию:

“South study walking” is not an official position, before the Qing era this is just a “messenger,” generally by the then imperial intellectuals Hanlin to serve as. South study in the Hanlin officials in the “select chencai only goods and excellent” into the value, called “South study walking.” Because of the close to the emperor, the emperor’s decision to have a certain influence. Yongzheng later set up “military aircraft,” the Minister of the military machine, full-time, although the study is still Hanlin into the value, but has no participation in government affairs. Scholars in the Qing Dynasty into the value of the South study proud. Many scholars and scholars in the early Qing Dynasty into the south through the study.

Это вообще по-английски? Мы, конечно, все можем согласиться с тем, что текст состоит из английских слов (по большей части), но следует ли из этого, что это английский текст? По-моему, раз в приведённом параграфе нет смысла, это не английский; это просто беспорядочно расставленные английские ингредиенты — случайный салат из слов, бессвязная мешанина.

На случай, если вам интересно — вот моя версия данного пассажа (я корпел над ней несколько часов):

Должность «нан шу фан сяон зу» (особый помощник из Южного кабинета) была не официальной, но в ранней династии Цин это была особая роль, которую обычно играл текущий придворный учёный. Группа учёных, работавших в южном кабинете имперского дворца, выбирала из своей среды человека великих талантов и хорошей репутации, дабы он писал речи для императора и всегда был у него на посылках; поэтому эта роль называлась «особый помощник из Южного кабинета». Помощник, будучи приближен к императору, очевидно был способен влиять на его политические решения. Однако, после того, как император Юнчжэн основал военное министерство, с министром и различными его подчинёнными, помощник из Южного кабинета, несмотря на службу императору, перестал играть главную роль в принятии правительственных решений. Тем не менее, учёные мужи династии Цин изо всех сил стремились к славе этой должности, и в ранние годы династии особыми помощниками были несколько знаменитых учёных.

Некоторые читатели могут заподозрить, что я, в целях жёсткой критики GT специально подбирал такие пассажи, на которых он активно спотыкался, и что на самом деле он гораздо лучше справляется с большинством текстов. Это звучит правдоподобно, но это не так. Почти каждый параграф, выбранный мною из книг, которые я сейчас читаю, приводил к ошибкам перевода всех видов и мастей, включая и такие бессмысленные и непостижимые фразы, какие были приведены выше.

Конечно, я признаю, что иногда GT выдаёт несколько предложений, звучащих вполне неплохо (хотя они и могут вводить в заблуждение или просто ошибаться). Может даже случиться так, что параграф или два получатся прекрасно, создавая иллюзию того, что GT понимает, что делает, понимает, что значит «читать». В таких случаях GT выглядит впечатляюще — почти человеком! И все хвалы однозначно относятся к его создателям и их тяжёлой работе. Но в то же время не забывайте, что GT сделал с этими двумя китайскими пассажами, а ранее — и с французскими, и с немецкими. Чтобы понять эти ошибки, стоит не забывать про «эффект Элизы». Байязычная машина ничего не читает — не в человеческом смысле глагола «читать». Она обрабатывает текст. Обрабатываемые символы не связаны с мирским опытом. У неё нет ни памяти, из которой можно что-либо черпать, ни воображения, ни понимания, ни смысла, скрывающегося за словами, которыми она так быстро оперирует.

* * *

Один друг спросил меня, можно ли считать умения GT простой функцией базы данных. Он прикинул, что если увеличить базу данных в миллион или миллиард раз, в итоге она в принципе сможет переводить всё, что дают, и по сути идеально. Я так не думаю. Увеличение количества «больших данных» не приблизит вас к пониманию, поскольку понимание зависит от наличия идей, а отсутствие идей — корень всех проблем современного машинного перевода. Так что я уверен, что базы данных большего размера — даже сильно большего — тут не помогут.

Другой естественный вопрос: не приблизит ли использование в GT нейросетей — имитации мозга — нас к настоящему пониманию машинами языка. Сначала это звучит правдоподобно, но до сих пор никто не предпринимал попыток пробраться за поверхностный уровень слов и фраз. Всяческие статистические данные по поводу огромных баз данных внедряются в нейросети, но эта статистика просто связывает одни слова с другими, а не с идеями. Нет попыток создать внутренние структуры, которые представляли бы собой идеи, образы, воспоминания или опыт. Такие умственные конструкции слишком неуловимы для вычислительных методов, и поэтому вместо них используются быстрые и сложные алгоритмы по статистическому накапливанию слов. Но результаты таких техник не идут в сравнение с тем, чтобы на самом деле обладать идеями, появляющимися, когда кто-либо читает, понимает, создаёт, изменяет и судит о тексте.

Но несмотря на мой негативизм, GT предоставляет сервис, ценимый многими: он на скорую руку производит преобразования осмысленных предложений, записанных на естественном языке А в не обязательно осмысленные строки слов на языке Б. И пока текст на языке Б более-менее можно понять, многих людей полученный результат полностью удовлетворяет. Если они могут получить «основную идею» предложения, написанного на незнакомом им языке, они и рады. Для меня это вовсе не то, что означает слово «перевод», но для некоторых людей это прекрасный сервис, и для них это перевод. Что ж, могу понять, что им надо, и что они довольны этим. Повезло им!

Недавно я наблюдал столбцовые диаграммы, нарисованные технофилами, заявляющими, будто они представляют качество перевода, сделанного людьми и компьютерами, и что эти графики показывают, насколько близко машинный перевод приблизился к человеческому. С моей точки зрения такая квантификация понятий, которые невозможно выразить количественно, попахивает псевдонаукой, или, если хотите, нёрдами, пытающимися привести к математике те вещи, чья неосязаемая, тонкая, артистическая природа ускользает от них. По-моему сегодняшний вывод GT колеблется от отличного до гротескного, но свои чувства по этому поводу я не могу оценить численно. Вспомните мой первый пример, с использованием понятий «его» и «её». Бездумная программа перевела почти все слова правильно, но несмотря на этот успех, совершенно не поняла смысл. И как в таком случае выразить качество работы численно? Использование наукообразных столбцовых диаграмм для представления качества перевода — это просто злоупотребление внешними признаками науки.

Вернёмся к грустной картине, в которой люди-переводчики вскоре останутся позади, станут старомодными, и в итоге будут заниматься корректурой. В лучшем случае в результате получится некая заурядность. Серьёзный художник не начинает работать с китчевого мусора, полного ошибок, чтобы, внеся парочку изменений, выдать произведение искусства. Это не природа искусства. А перевод — это искусство.

В своих работах, написанных в течение многих лет, я всегда поддерживал точку зрения, по которой человеческий мозг — это машина; очень сложная машина; и я энергично спорил с теми, кто говорил, что машины по сути своей не способны на понимание. Есть даже философская школа, заявляющая, что компьютеры никогда не будут «обладать семантикой», поскольку они состоят «не из того материала» (кремния). Как по мне, так это поверхностная ерунда. Здесь я не буду пускаться в дебаты, но я не хочу произвести на читателя впечатление, что я верю, будто интеллект и понимание никогда не будут доступны компьютерам. Если данное эссе наталкивает на подобные мысли, то это лишь оттого, что обсуждаемые мною технологии не делают никаких попыток воспроизвести человеческий интеллект. Наоборот: они пытаются обойти интеллект, и получающиеся на выходе пассажи демонстрируют эти зияющие пробелы.

С моей точки зрения, нет никакой фундаментального запрета на то, чтобы машины, в принципе, когда-нибудь начали думать, стали творческими, забавными, ностальгическими, радостными, испуганными, восторженными, покорными, полными надежд, и в результате, смогли бы делать хорошие переводы между языками. Нет фундаментальных причин, по которым когда-нибудь они бы не смогли успешно переводить шутки, игру слов, сценарии, романы, поэмы, и эссе вроде этого. Но всё это появится только когда машины наполнятся идеями, эмоциями и опытом, как люди. А этого пока не видно. Я верю, что до этого ещё очень далеко. По крайней мере, на это горячо надеется этот человек, всю жизнь восхищавшийся глубиной человеческого разума.

Когда, в один прекрасный день, механический переводчик составит искусный роман в стихах на английском языке, используя чёткий ритмичный четырёхстопный ямб, богатый мыслями, чувственностью и живыми строками, я пойму, что пришло время мне откланяться.

Источник

Недалёкость Google Translate

Программа использует передовые ИИ-технологии, но простейшие тесты говорят о том, что ей ещё далеко до реального понимания

Читайте также

Паблик ВКонтакте

Последние посты