Системные галлюцинации ИИ: главные риски для биологических исследований

17 минут назад

Почему прогностическая уверенность нейронных сетей в биологических исследованиях зачастую опережает реальную глубину научного понимания, и какие уроки из этого следует извлечь инженерам программного обеспечения.

Главным триумфом искусственного интеллекта в естественных науках стал проект AlphaFold. Однако этот успех не был случайным: он базируется на Protein Data Bank (PDB) — фундаментальной базе данных, формировавшейся еще с 1970-х годов. Модель взлетела не только благодаря совершенным алгоритмам, но и за счет многолетней верификации предсказаний в рамках конкурса CASP. Без строжайших стандартов качества данных никакие вычислительные мощности GPU не принесли бы плодов. Сегодня многие команды пытаются внедрять ИИ в области, где данные либо крайне дефицитны, либо не соответствуют задаче. В цифровой медицине принято считать электронные медкарты ключевым активом, однако для настоящих прорывов необходимы новые биомаркеры и фундаментальные лабораторные исследования, которые на данный момент остаются недофинансированными.

Почему высокие метрики точности ИИ в биологии могут быть иллюзорными?

Показательным случаем стала публикация в Nature Communications, где нейросеть обучали предсказывать функции ферментов на основе массива из 22 миллионов последовательностей. На бумаге всё выглядело безупречно: процессы обучения, валидации и тестирования прошли по всем канонам Data Science.

Критическая уязвимость обнаружилась лишь тогда, когда за анализ статьи взялась микробиолог Валери де Креси-Лагар. Она выяснила, что в отношении ферментов, изучению которых она посвятила десятилетие, модель выдала заведомо ложные результаты. Глубокий аудит выявил ряд системных изъянов:

Утечка данных (Data Leakage): 135 «впервые предсказанных» ферментов уже содержались в существующих базах. Модель просто воспроизвела известные знания, а не совершила открытие.
Биологическая несостоятельность: алгоритм приписывал синтез определенных соединений организмам (например, E. coli), которые физически не обладают необходимым для этого аппаратом.
Переобучение: двенадцати совершенно разным по своей природе ферментам была присвоена одна и та же узкоспециализированная функция.

Формальные показатели нейросети могут стремиться к идеалу, но по факту выдавать биологически бессмысленный результат. Без глубокой предметной экспертизы подобные ошибки беспрепятственно проходят через научное рецензирование, превращаясь в ложные «факты».

Каскадный эффект ошибок

Наличие систематического смещения в данных означает, что простое увеличение выборки лишь масштабирует ошибку. Характерный пример — приложение Zoe для мониторинга симптомов COVID-19. Программа игнорировала проявления «длительного ковида», такие как когнитивные нарушения и хроническая усталость, поскольку их не было в исходном опроснике. Это привело к искажению статистики выздоровлений: когда люди переставали пользоваться приложением, система ошибочно фиксировала их как здоровых.

Кроме того, разработчики нередко синтезируют биологические пути из разрозненных публикаций в единую архитектуру. В результате возникают модели процессов, которые никогда не могли бы протекать в живой клетке одновременно. Это напоминает «интерполяцию в вакууме»: ИИ соединяет точки на графике, не понимая фундаментальных причинно-следственных связей.

Инсайты для разработчика

При работе над проектами в наукоемких и сложных областях критически важно учитывать следующие аспекты:

Инвестиции в понимание предметной области и механизмов процессов важнее, чем погоня за SOTA-архитектурами. Нейросеть сама по себе не способна создать новую научную парадигму.
Строгая спецификация данных: необходимо четко документировать происхождение выборок, их ограничения и области, в которых их применение категорически недопустимо.

Искусственный интеллект в естественных науках — это мощный, но вторичный инструмент. Без качественной экспериментальной базы и вовлечения профильных экспертов на каждом этапе разработки существует риск построить целую индустрию на фундаменте из статистических иллюзий.

Источник

Системные галлюцинации ИИ: главные риски для биологических исследований

Почему высокие метрики точности ИИ в биологии могут быть иллюзорными?

Каскадный эффект ошибок

Инсайты для разработчика

Читайте также

Паблик ВКонтакте

Последние посты