ИИ попытался понять комиксы. Не получилось

ИИ попытался понять комиксы. Не получилось
Откуда появилась змея на последнем рисунке? Почему она кусает человека? На втором и третьем рисунках изображён один и тот же человек? Ответы на эти вопросы читатель получает из общего понимания сюжета, осмысливая подписи к рисункам, фразы героев и смысловые переходы от одной картинки к другой

Нейросети демонстрируют удивительные успехи в различных задачах. Они обошли человека по точности распознавания лиц, чтению по губам, игре в некоторые настольные игры, диагностированию некоторых болезней и вождению автомобиля в темноте. С каждым днём количество «побед» нейросетей над человеком увеличивается. Но есть специфические задачи, в которых Искусственный интеллект даже близко не может подобраться к человеческому уровню, так что ему не остаётся ничего иного, кроме как признать своё поражение — и отступить.

Одна из таких непосильных задач — понимание комиксов, рассказов в картинках. Этот вид искусства находится на стыке литературы и изобразительного искусства. Он отличается тем, что активно обращается к воображению читателя. Человек должен домысливать то, что происходит в рисованной истории. Оптимистичные учёные из Университета Колорадо и Университета Мэриленда (США) предположили, что смогут обучить этому нейросеть, но просчитались.

Рассказы в картинках — древний жанр искусства, который ведёт свою историю со Средневековья. Он получил широкое распространение в современной массовой культуре в конце 19 века и в 20 веке, став прообразом мультипликации и кинематографа. Это практически одно и то же. Как говорил Скотт МакКлауд, автор книги «Суть комикса», пространство для комикса значит то же, что время для фильма. В английском языке слово «cartoon» даже обозначает и мультфильм, и комикс одновременно, потому что эти понятия близки по смыслу.


Страница из книги Скотта МакКлауда «Суть комикса»

В серии картинок автор может рассказать от начала и до конца любую историю, от развития трёхсотлетней межгалактической войны до семейного ужина. Ключевая особенность комикса и настоящее мастерство художника заключается не в том, что он показывает, а в том, что скрыто. Зрителю приходится догадываться. Воображение рисует красочные картины, которые автор комикса специально оставил для него, для воображения.


Только представьте, что увидела героиня этого комикса!

В этом и есть вся прелесть комиксов. Воображение.

Исследователи из Университета Колорадо и Университета Мэриленда (США) попытались обучить нейросеть заполнять смысловые пробелы (gutters) между отдельными рисунками комикса, как это делает воображение человека. Для обучения нейронной сети составили обширную базу комиксов: примерно 1,2 млн рисунков из 4000 публично доступных книг с рисованными историями. Все они вышли в 1938−1954 гг. Собранная база COMICS размером 120 ГБ через несколько дней будет опубликована в открытом доступе на GitHub. Судя по всему, это первый в истории набор данных с комиксами для обучения нейросетей.

Статистика набора данных
Книг — 3948
Страниц — 198 657
Рисунков — 1 229 664
Текстовых полей — 2 498 657

Чтобы проверить понимание контекста и сюжета комиксов, исследователи разработали три задачи по предсказанию текста и объектов на рисунках: text cloze, visual cloze и character coherence. Хотя задачи отличались по содержанию, но во всех случаях задачи имели одинаковый формат: нейросеть получала в качестве контекста несколько предшествующих рисунков и должна была оценить наилучший из вариантов для предсказания следующего текста (text cloze), картинки (visual cloze) или соответствия текста конкретному персонажу (character coherence). Выбор осуществлялся из трёх вариантов текста и рисунков и из двух вариантов соответствия фраз персонажу.

Понимание смысла комиксов определялось по тому, каким образом нейросеть предсказывает следующий рисунок в сюжетной линии и текст на нём. Для тестирования было разработано четыре модели: Text-only, Image-only, NC-image-text и Image-text. Первая нейросеть получала информацию только о тексте на картинках. Вторая нейросеть получала информацию только о визуальных характеристиках рисунков. Третья и четвёртая модели отличаются лишь в деталях, но обе они получали информацию и о тексте, и о визуальных характеристиках рисунков.


Применение архитектуры Image-text к задаче text cloze. Предварительно усвоенные в процессе обучения фичи изображения сочетаются с текстовыми фичами в иерархической архитектуре для формирования представления контекста, который затем использован для оценки текстовых кандидатов, то есть для выбора наиболее подходящего из трёх вариантов фразы героини

После обучения нейросети проверили на трёх вышеупомянутых задачах по предсказанию следующего рисунка в комиксе. Как видно из таблицы с результатами, нейросети очень плохо справились с поставленной задачей, показав результат гораздо хуже, чем у человека, хотя и выше, чем случайная вероятность (33% и 50%, соответственно).

Судя по всему, понимание смысла комиксов и характерных смысловых пробелов между отдельными кадрами остаётся уникальной задачей, решить которую способен только человек. Искусственный интеллект обыгрывает людей в интеллектуальную викторину, шахматы и го, гораздо лучше распознаёт объекты на видео и обрабатывает речь, умеет предсказывать звуки и генерировать произведения искусства в стиле известных художников, но понять комиксы он пока не в состоянии. У него нет воображения.

Научная работа опубликована 16 ноября 2016 года в открытом доступе на сайте arXiv (arXiv:1611.05118).


Источник

воображение, ИИ, искусственный интеллект, комиксы, нейросеть

Читайте также