ИИ от MIT научился «читать» графики: компактные модели обошли коммерческих гигантов

4 Июн в 19:06

Несмотря на колоссальный прогресс нейросетей в обработке текстовой и визуальной информации, интерпретация графических данных остается «ахиллесовой пятой» современного ИИ. То, что для человека кажется очевидным — будь то выявление динамики тренда или сравнение показателей на гистограмме, — для моделей превращается в сложную задачу, требующую одновременной синхронизации визуальных образов, численных значений и подписей. Дефицит качественных обучающих выборок зачастую приводит к тому, что даже флагманские коммерческие системы допускают серьезные искажения при анализе научной и деловой документации.

Решением этой проблемы стал ChartNet — масштабный специализированный датасет, разработанный экспертами из Массачусетского технологического института (MIT) совместно с лабораторией MIT-IBM Computing Research Lab.

Библиотека содержит более миллиона структурированных графиков. В дополнение к визуальному ряду каждый объект сопровождается программным кодом для рендеринга, табличными данными, подробными описаниями и серией контрольных вопросов. Такой комплексный подход позволяет нейросетям учиться «понимать» взаимосвязь между формой, цифрами и смысловой нагрузкой диаграммы.

ИИ от MIT научился «читать» графики: компактные модели обошли коммерческих гигантов — Иллюстрация: Nano Banana

Авторы проекта подчеркивают: именно нехватка репрезентативных данных тормозила прогресс в этой области. Ранее доступные базы были либо слишком скудными, либо содержали поверхностную информацию, не позволявшую модели проводить глубокий анализ.

Для формирования ChartNet была задействована двухстадийная генеративная методология. Сначала алгоритм переводит графики в программный код, а затем автоматически варьирует их параметры — от стилистики оформления и цветовой палитры до числовых значений и типов визуализации. Это позволило создать невероятно вариативную базу для обучения.

Целостность данных гарантирует встроенная система автоматизированного контроля: она верифицирует программный код и сопоставляет итоговую картинку с эталонными данными, исключая ошибки и артефакты.

Тестирование открытых моделей, в частности линейки IBM Granite Vision, показало впечатляющий прогресс: после обучения на ChartNet нейросети стали гораздо точнее оцифровывать графики, извлекать статистику и формулировать осмысленные выводы по представленным данным.

Одним из главных достижений стало то, что облегченные открытые модели на базе ChartNet демонстрируют превосходство над масштабными коммерческими конкурентами. Это открывает компаниям путь к эффективной аналитике без необходимости использования дорогостоящего и закрытого «черного ящика» от крупных ИИ-провайдеров.

Учитывая роль графиков в бизнесе и науке, создание инструментов для их качественной автоматической интерпретации — это критически важный шаг для внедрения ИИ в реальные рабочие процессы. В планах разработчиков — усложнение архитектуры датасета и добавление новых форматов визуализации, что позволит нейросетям справляться с еще более комплексным анализом данных.

Источник: iXBT

ИИ от MIT научился «читать» графики: компактные модели обошли коммерческих гигантов

Читайте также

Паблик ВКонтакте

Последние посты