Новый ИИ DeepMind позволил историкам расшировать древнегреческие тексты

Новый ИИ DeepMind позволил историкам расшировать древнегреческие тексты

На этом фрагменте надписи зафиксирован указ, касающийся афинского Акрополя, датируемый 485-484 годами до н. э.

Google DeepMind совместно с учёными создали новый ИИ-инструмент, использующий глубокие нейросети для расшифровки текста повреждённых древнегреческих надписей. Новая система под названием Ithaca построена на основе системы восстановления текста Pythia.

Согласно новой статье, опубликованной командой исследователей в журнале «Nature», Ithaca не просто помогает историкам восстанавливать текст, но и способна определять его происхождение, а также дату создания. Ithaca уже использовали для разрешения спора о корректной датировке нескольких древнеафинских указов. Интерактивная версия Ithaca доступна бесплатно, а сейчас команда переводит её код в open source.

Многие древние источники — свитки, папирусы, камень, металл, керамика — насколько повреждены, что большие фрагменты текста часто нечитаемы. Трудности возникают и с определением происхождения текстов, потому что они с большой вероятностью много раз перемещались. Для точной датировки их изготовления нельзя использовать радиоуглеродный анализ и другие похожие методики, поскольку они могут повредить бесценные артефакты. Поэтому пугающая и времязатратная задача интерпретации этих текстов ложится на плечи так называемых эпиграфистов, специализирующихся в этом деле.

Сотрудники DeepMind писали в 2019 году следующее:

Одна из проблем определения смысла неполных фрагментов текста заключается в том, что часто существует множество возможных решений. Во многих играх и головоломках со словами игроки угадывают буквы, чтобы завершить слово или фразу. Чем больше букв известно, тем меньше остаётся вариантов возможных решений. Но в отличие от этих игр, где игрокам нужно угадать отдельную фразу, восстанавливающие текст историки могут оценивать вероятность различных возможных решений на основании других контекстных подсказок в надписи, например, грамматических и лингвистических особенностей, структуры и формы, текстовых параллелей и исторического контекста.

Чтобы ускорить этот процесс, Яннис Ассаел, Теа Соммершильд и Джонатан Прэг из DeepMind совместно с исследователями из Оксфордского университета разработали Pythia — систему восстановления древних текстов, названную в честь верховной жрицы, служившей Дельфийским оракулом, который доносил прорицания Аполлона.

Фрагмент халкидского декрета — надписи, фиксирующей клятву верности города Халкиды Афинам. Традиционно датировался 446 г. до н. э., но недавно заново датирован 424 г. до н. э.

Первым шагом исследователей стало преобразование крупнейшей цифровой коллекции древнегреческих надписей — базы данных Packard Humanities Institute (PHI) — в текст для машинной обработки под названием PHI-ML. База насчитывает около 35 тысяч надписей из более 3 миллионов слов с седьмого века до н. э. по пятый век н. э. Далее исследователи обучили Pythia (использовав в качестве входящих данных и слова, и отдельные символы), чтобы спрогнозировать отсутствующие буквы слов в этих надписях. Pythia была обучена использовать функции распознавания паттернов глубоких нейронных сетей.

Столкнувшись с неполной надписью, Pythia выдавала до двадцати возможных букв или слов, способных заполнить пробелы, а также указывала уровень своей уверенности для каждого варианта. Задача историков («специалистов предметной области» в терминологии машинного обучения) заключалась в фильтрации этих вариантов и в выборе окончательного результата на основании их опыта.

Команда протестировала систему, сравнив успехи Pythia в восстановлении 2949 надписей с результатами аспирантов Оксфорда, обучавшихся эпиграфике. Результаты Pythia содержали 30,1% ошибок, результаты аспирантов — 57,3%. Кроме того, Pythia справилась с задачей гораздо быстрее, на расшифровку 50 надписей ей понадобилось всего несколько секунд, в отличие от аспирантов, потративших около двух часов.

И теперь Ассаел с коллегами объявили о выпуске Ithaca. Кроме возможности восстановления текста, Ithaca делает прогнозы о географическом происхождении неполных надписей. Распределение вероятностей всех возможных прогнозов удобно визуализировано на карте, «чтобы пролить свет на возможные географические связи древнего мира». Об этом команда разработчиков написала в сопроводительном посте. Также Ithaca создаёт распределение прогнозируемых датировок в диапазоне от 800 г. до н. э. до 800 г. н. э.

При помощи Ithaca исследователи классических языков смогли восстановить повреждённую надпись, касающуюся афинского Акрополя.

При тестировании выяснилось, что Ithaca самостоятельно способна достичь точности 62% при восстановлении повреждённого текста, по сравнению с точностью 25% учёных-историков. Однако объединение усилий человека и машины повышает общую точность до 72%, что, по мнению Ассаела и его соавторов, демонстрирует «потенциал сотрудничества человека и машины» в этой сфере. При определении происхождения надписей точность Ithaca составила 71%, а датировать надписи ей удавалось с погрешностью в 30 лет.

У Ithaca уже был шанс продемонстрировать свою полезность историкам в тесте с набором афинских указов, ставшего источником спров о датировке. Ранее историки датировали указы не позже чем 446 годом до н. э. Эта оценка основывалась на форме букв (называемой аттической трёхштриховой сигмой), которую афинская бюрократия использовала в то время. После 446 года до н. э. афиняне перешли при написании указов к ионической четырёхштриховой сигме.

Такой была стандартная методология датировки афинских надписей, однако позже другие историки начали подвергать сомнению эти предположения, поскольку многие указы, датированные таким образом, не соответствовали историческим свидетельствам Фукидида. Эти историки нашли свидетельства того, что аттическую форму письма продолжали использовать в официальных документах спустя долгое время после 446 года до н. э. Они пришли к выводу, что многие эти указы должны иметь более позднюю датировку, примерно 420 год до н. э. Ithaca спрогнозировала 421 год до н. э., что соответствует этому выводу.

Пример результатов работы Ithaca: географическое происхождение надписи с Аморгоса (слева); Прогноз распределения датировок Ithaca (справа).

«Хотя разница может показаться небольшой, этот сдвиг дат имеет существенные последствия для нашего понимания политической истории классических Афин», — сообщила Соммершильд в заявлении. Следующим шагом будет разработка дополнительных версий Ithaca, способных восстанавливать тексты на других древних языках, в том числе на аккадском, древнееврейском, майя, а также написанных демотическим письмом.

«Эта статья представляет собой очень важное развитие совместного использования ИИ в целях восстановления, датировки и атрибутирования надписей на древнегреческом за период в несколько веков», — сказала не связанная с проектом президент International Digital Epigraphy Association Уорикского университета Элисон Кули. «Инновационная структура Ithaca даёт надежду на то, что потенциальный вклад письменных свидетельств в наше понимание ключевых моментов мировой истории будет больше».

Почётный профессор Нью-Йоркского университета Роджер Бэгнэлл (тоже не связанный с проектом) с энтузиазмом отнёсся к тому, что, по его мнению, является огромным шагом вперёд в производительности по сравнению с Pythia, в особенности потому, что работу Ithaca можно распространить и на другие языки. «Мне не терпится увидеть, как она будет работать с документами на папирусе, для которых у нас есть гораздо более точная датировка, но происхождение текстов гораздо менее определено из-за операций на рынке памятников древности», — сказал он в своём заявлении. «Благодаря помощи Ithaca мы должны суметь воссоздать движения на этом рынке и исходный исторический контекст многих тысяч документов на папирусе».

DOI: Nature, 2022. 10.1038/s41586-022-04448-z.

 

Источник

Читайте также