Да, наконец-то вы увидите пример реальной пользы от использования AI!
Вряд ли кто-то будет спорить, что инструменты ИИ вроде GPT-4, как минимум интересны и забавны. Но насколько они практичны? Могут ли они помочь нам сделать что-то действительно полезное… например, перевести 1200-страничную книгу о демонах, написанную малоизвестным теологом-иезуитом XVI века? Давайте проверим!
Тест 1: Полуденные демоны Ливийской пустыни (1599)
Очевидно, что GPT-4 (от OpenAI) и Claude (от Anthropic) — искусные переводчики. Однако мы только начинаем понимать, как перевод с помощью LLM может дополнить работу исследователей. Мне кажется, что GPT-4 и Claude привносят в работу три очень полезные вещи:
- Способность делать обоснованные предположения на базе несовершенного исходного материала. Например, искажённого текста, возникающего при использовании оптического распознавания символов (OCR) старых книг.
- Знание исторического контекста. В отличие от привычных нам переводчиков, таких как Google Translate, LLM обладают обширными (хотя и несовершенными) данными об исторических условиях, в которых был написан текст.
- Обобщение и анализ. Ключевой момент для историков. Большая часть моей работы заключается в просмотре медицинских справочников, написанных на средневековом португальском, латинском, испанском или французском языках. В основном я искал упоминания о лекарственных препаратах из других стран Европы, и иногда в книге объёмом 600 и более страниц оказывалось всего одно или два таких упоминания. Возможность попросить LLM распознать каждую страницу такой книги, пролистать её и сообщить, на каких страницах упоминается что-то нужное мне, была бы решающим фактором.
Для проверки этих возможностей я попросил GPT-4 и Claude перевести случайно выбранный отрывок из книги по демонологии 1599 года: Магические расследования (лат. Disquisitionum Magicarum Libri Sex) Мартина Дельрио или дель Рио, голландского иезуита испанского происхождения.
Если название книги навело вас на мысль о ренессансной версии «Охотников за привидениями», то вы не так уж далеки от истины: дель Рио был знатоком колдовства, некромантии и призыва демонов. Он рассматривал свою книгу как своего рода руководство по борьбе с этими тёмными искусствами.
Демонология — тема, которой я интересуюсь с тех пор, как прочитал блестящую книгу Стюарта Кларка «С мыслью о демонах». Однако меня пугает возможность проведения настоящих исследований, поскольку многие источники написаны на латинском языке, и рассчитаны на читателя с высокой эрудицией. Я могу читать по‑латыни на среднем уровне, но эти книги, как правило, вызывают затруднения, поскольку в них обильно намешаны неясные библейские или каббалистические отсылки со сложными теологическими рассуждениями.
Итак, что же делают два моих подопечных, когда им скармливают случайный отрывок со страницы 330 этого издания?
Оговорюсь, текст я никак не очищал, просто скопировал и вставил отрывок непосредственно из Google Books. То есть текст содержал ошибки и всё такое. В левой колонке — тот текст, который я попросил перевести:
Полный перевод этого отрывка в GPT-4 и мою версию можно прочитать здесь. Это неоднозначный результат. Перевод, конечно, помог понять смысл отрывка, который относится к знаменитому «полуденному демону», упомянутому в Псалме 91. Но меня смутила ссылка на древнееврейский язык во втором предложении.
В «творческом» режиме Bing Chat (который является специализированной версией GPT-4) дело обстояло несколько лучше. При чтении имейте в виду, что в скобках приведены не мои слова, а собственные пояснения ИИ к неоднозначным фрагментам:
Когда я загрузил этот же отрывок в Claude 2, он предложил, как мне кажется, лучший перевод из всех возможных:
Обратите внимание на прекрасное саммари, а также на полезные пояснения в скобках. Например, мне пришлось бы искать, кто такие Яннес и Ямбрис: здесь нам сам ИИ сообщает, что это имена египетских магов из библейской книги.
В целом, это было чрезвычайно сложное задание по переводу, включающее не только латынь раннего Нового времени, но и слова на древнееврейском и древнегреческом языках. Claude проделал замечательную работу. Многое упрощает, согласны?
Тест 2: Перечисление типов демонов
Здесь гораздо большее контекстное окно Claude (100 тыс. лексем) явно выигрывает у GPT-4. Я экспериментировал с вводом в Claude больших кусков OCR-текста из книги Дель Рио. Я попросил вывести таблицу различных типов демонов, упоминаемых в тексте, с указанием номера соответствующей страницы.
Вот что вышло
И точно: на странице 247 книги мы находим упоминание о Magiſterulo:
В некоторых случаях, однако, в таблице указан неверный номер страницы. Я подозреваю, что это проблема OCR. Номера страниц в этом издании книги часто смазаны или напечатаны неправильно, и поэтому многие из них не были транскрибированы должным образом.
Я думаю, что таблицы и сводки, подобные приведённым выше, — это то, что в конечном итоге изменит правила игры для всех, кто занимается исследованиями на нескольких языках. Речь идёт не о том, чтобы заставить ИИ заменить вас. А скорее о том, чтобы попросить ИИ выступить в роли своего рода эрудита-исследователя и снабжать вас ссылками и релевантной сопутствующей информацией.
Тест 3: Неизвестный португальский медицинский текст
Когда я устал от демонов, то переключился на одного из своих любимых авторов: португальского врача-новатора Жуана Курво Семедо, который немного похож на Оливера Сакса XVIII века.
Я попросил GPT-4 перевести OCR-текст страницы из книги Курво Семедо «Медицинские примеры», опубликованной в 1707 году. Я выбрал этот отрывок наугад, но стоит отметить, что он представляет исторический интерес. Семедо был необычайно скептичен по меркам врачей раннего Нового времени, и здесь он правильно определяет токсичность ртути, говоря, что она вызывает «жестокие бури в человеческих телах». Семедо был абсолютно прав, но, несмотря на это, различные формы лекарственной ртути продолжали широко использоваться для лечения сифилиса, депрессии и других заболеваний вплоть до ХХ века. (Самым известным потребителем ртути в истории был, пожалуй, Линкольн) .
Вот ссылка на полный текст, а вот часть перевода GPT-4:
Поскольку я владею навыками перевода раннего португальского языка, в том числе медицинских текстов, то могу сказать что этот перевод сделан на уровне человека-эксперта.
Примечательно, что GPT-4 смог составить неплохую таблицу, отображающую основные характеристики лекарств, которые упоминает Семедо:
Из всего этого я сделал вывод, что перевод и анализ первоисточников с помощью LLM в конечном итоге станет чрезвычайно полезным инструментом для исторических исследователей и переводчиков. Но это будет именно инструмент, полезный помощник. А не замена человека.
На написание этой статьи меня вдохновило прочтение статьи принстонского историка Дэвида А. Белла о переводах с французского языка с помощью искусственного интеллекта. Вы можете найти его здесь: Playing Around with Machine Translation.
Спасибо за внимание! Ваш Benjamin Breen.