Кризис воспроизводимости исследований в области искусственного интеллекта

В исследованиях ИИ доминируют технологические гиганты, однако грань между реальными прорывами и рекламой коммерческого продукта постепенно размывается. Некоторые учёные считают, что пора это прекратить.

Кризис воспроизводимости исследований в области искусственного интеллекта

В прошлом месяце в журнале Nature опубликовали ругательный отзыв, подписанный 31 учёным. Им не понравилось исследование Google Health, ранее появившееся в этом же журнале. В нём компания Google описывала успешные результаты испытаний искусственного интеллекта (ИИ), искавшего признаки рака груди на медицинских фотоснимках. Критики утверждают, что команда Google предоставила так мало информации о коде и ходе испытаний, что исследование оказалось больше похожим на рекламное описание закрытой частной технологии.

«Мы не могли это больше выносить, — говорит Бенджамин Хайбе-Каинс, ведущий автор отзыва, изучающий вычислительную геномику в Торонтском университете. – И дело не в этом конкретном исследовании – мы уже много лет подряд наблюдаем подобную тенденцию, и это нас уже реально раздражает».

Хайбе-Каинс с коллегами принадлежат к растущему числу учёных, сопротивляющихся видимому отсутствию прозрачности в исследованиях ИИ. «Увидев эту работу от Google, мы поняли, что это лишь ещё один пример из ряда восторженных публикаций в очень уважаемом журнале, не имеющих ничего общего с наукой, — говорит он. – Это больше реклама прикольной технологии. Мы с этим ничего сделать не можем».

Наука основывается на доверии, в том числе – раскрытии деталей того, как ведутся исследования, достаточно подробном для того, чтобы другие могли повторить их и подтвердить полученные результаты. Именно так наука исправляет саму себя, и выкорчёвывает неподтверждённые результаты. Воспроизводимость позволяет другим основывать свою работу на этих результатах, что помогает двигать область знаний вперёд. Наука, которую нельзя воспроизвести, оказывается на обочине истории.

По крайней мере, теоретически. На практике мало какие исследования полностью воспроизводятся, поскольку большинству исследователей интереснее получать новые результаты, чем повторять старые. Однако в таких областях, как биология, физика, информатика, исследователи ожидают, что авторы дадут достаточно информации доля того, чтобы эти эксперименты можно было провести повторно – даже если это и делается редко.

Амбициозный новичок

ИИ ругают по нескольким причинам. Во-первых, это новичок. Экспериментальной наукой он стал в последние лет десять – так говорит Джоэль Пиньо, специалист по информатике из Facebook AI Research и университета Макгилла, соавтор жалобы. «Сначала это была чисто теоретическая область, но теперь мы проводим всё больше экспериментов, — говорит она. – И наша приверженность строгой методологии отстаёт от амбициозности наших экспериментов».

Это не просто академическая проблема. Отсутствие прозрачности не позволяет как следует проверить новые модели и технологии ИИ на надёжность, отсутствие искажений и безопасность. ИИ быстро переходит из исследовательских лабораторий в реальный мир, что напрямую влияет на жизни людей. Однако хорошо работающие в лаборатории модели машинного обучения (МО) могут сломаться в реальном мире, что потенциально может привести к опасным последствиям. Воспроизведение результатов экспериментов разными исследователями в разных условиях быстрее вскроет возможные проблемы, что сделает ИИ надёжнее для всех.

ИИ и так страдает от проблемы «чёрного ящика»: иногда невозможно сказать, как или почему модель МО выдаёт именно такой результат. Отсутствие прозрачности в исследованиях только всё ухудшает. Большим моделям требуется как можно больше наблюдателей, чтобы большее число людей испытывало их и разбиралось в их работе. Именно так можно сделать использование ИИ в здравоохранении безопаснее, в обеспечении общественного порядка – справедливее, в чатах – вежливее.

Нормальной воспроизводимости ИИ мешают отсутствие трёх вещей: кода, данных и железа. В отчёте 2020 года «Состояние ИИ«, проверенном ежегодном анализе ситуации в этой области, проводимом инвесторами Нэйтаном Бенайхом и Йеном Хогартом, указано, что кодом делятся лишь 15% исследований ИИ. Чаще плохо себя ведут исследователи из индустрии, чем учёные из университетов. В частности, в отчёте выделены компании OpenAI и DeepMind, которые меньше всего любят делиться своим кодом.

Отсутствие необходимых для воспроизводимости инструментов ощущается острее, когда речь заходит о двух столпах ИИ – данных и железе. Данные часто хранятся в частных руках – к примеру, данные, собираемые Facebook на своих пользователей, — или оказываются чувствительными, как в случае с медицинскими карточками. Технологические гиганты проводят всё больше исследований на огромных и чрезвычайно дорогих компьютерных кластерах, доступ к которым есть у небольшого числа университетов или мелких компаний.

К примеру, обучение генератора языка GPT-3, по некоторым оценкам, обошлось OpenAI в $10-$12 млн – и это только если учитывать последнюю модель, без учёта стоимости или разработки и обучения прототипов. «Тогда эту цифру, вероятно, можно увеличить на один-два порядка, — говорит Бенайх, основатель венчурной фирмы Air Street Capital, вкладывающейся в ИИ-стартапы. Крохотный процент крупных технологических фирм может себе такое позволить, говорит он: „Никто больше не может разбрасываться такими огромными бюджетами на подобные эксперименты“.

Гипотетический вопрос: у некоторых людей есть доступ к GPT-3, а у некоторых – нет. Что будет, когда мы увидим появление новых работ, в которых GPT-3 используют люди, не относящиеся к проекту OpenAI, чтобы получить передовые результаты?
И главная проблема: выбирает ли OpenAI победивших и проигравших исследователей?

Скорость прогресса головокружительная. Каждый год публикуются тысячи работ. Однако если не знать, кому можно доверять, очень сложно продвигать развитие этой области. Воспроизведение позволяет другим исследователям проверять, что авторы не подбирали наилучшие результаты вручную, и что новые технологии действительно работают так, как описано. „Всё сложнее отличить надёжные результаты от остальных“, — говорит Пиньо.

Что тут можно сделать? Как и многие другие исследователи ИИ, Пиньо делит своё время между университетом и корпоративными лабораториями. В последние годы она активно влияла на систему публикации исследований ИИ. К примеру, в прошлом году она помогла продвинуть список пунктов, которые исследователи обязаны обеспечить в работе, подаваемой на одну из крупнейших ИИ-конференций, NeurIPS. В него входят код, подробное описание экспериментов.

Воспроизводимость ценна сама по себе

Пиньо также помогла запустить несколько конкурсов по воспроизводимости, в которых исследователи пытаются воспроизвести результаты опубликованных исследователей. Участники выбирают работы, принятые на конференциях, и соревнуются друг с другом, запуская эксперименты на основе предоставленной информации. Правда, в награду они получают только признание.

Отсутствие мотивации не способствует распространению подобных практик во всех областях исследований, а не только в ИИ. Воспроизведение – вещь необходимая, но она никак не поощряется. Одно из решений такой проблемы – привлекать к этой работе студентов. В последние пару лет Розмари Ке, кандидат наук из Mila, исследовательского института в Монреале, основанного Йошуа Бенджио, организовала конкурс воспроизводимости, в рамках которого студенты пытаются в рамках обучения воспроизводить исследования, поданные на NeurIPS. Некоторые из успешных попыток рецензируются и публикуются в ReScience.

»Воспроизведение чужой работы с нуля требует больших усилий, — говорит Ке. – Конкурс воспроизводимости вознаграждает эти усилия и отдаёт должное людям, хорошо выполняющим задачу». Ке и другие рассказывают об этих попытках на конференциях ИИ, организовывая рабочие семинары, поощряющие исследователей добавлять прозрачности в свои работы. В этом году Пиньо и Ке расширили свой конкурс уже на семь крупнейших ИИ-конференций, включая ICML и ICLR.

Ещё один проект, продвигающий прозрачность, называется Papers with Code [Работы с кодом]. Его организовал исследователь ИИ Роберт Стойник, когда работал в Кембриджском университете. Сейчас они с Пиньо вместе работают в Facebook. Сначала проект запустился в виде отдельного веб-сайта, на котором исследователи могли ставить ссылки с их работ на использовавшийся в них код. В этом году проект скооперировался с популярным сервером для препринтов arXiv. С октября все работы по машинному обучению, публикуемые на arXiv, имеют раздел Papers with Code, откуда идёт ссылка на код, который авторы работы готовы опубликовать. Цель проекта – сделать распространение такого кода нормой.

Влияют ли на что-нибудь эти попытки? Пиньо обнаружила, что в прошлом году, когда появился список необходимых компонентов, количество содержащих код работ, отправленных на конференцию NeurIPS, выросло с 50% до 75%. Тысячи рецензентов говорят, что использовали код для оценки присланных работ. Количество участников конкурса воспроизводимости растёт.

Дьявол в деталях

Но это только начало. Хайбе-Каинс указывает, что одного только кода часто недостаточно для повторного запуска эксперимента. Для построения ИИ-моделей приходится вносить множество мелких изменений – добавить параметр там, значение тут. Любой из них может сделать рабочую модель нерабочей. Без метаданных, описывающих, как модели обучают и подстраивают, код может быть бесполезным. «Дьявол действительно в мелочах», — говорит он.

Также не всегда понятно, какой код нужно распространять. Многие лаборатории используют особые программы для запуска моделей. Иногда это частное закрытое ПО. Также иногда сложно сказать, какой частью кода нужно поделиться, говорит Хайбе-Каинс.

Пиньо не особенно волнуют такие препятствия. «Стоит ждать большой пользы от распространения кода», — говорит она. Данными делиться сложнее, однако и тут есть решения. Если исследователи не могут поделиться данными, они могут дать инструкции по самостоятельному сбору подходящего набора данных. Или можно организовать доступ к данным небольшому количеству рецензентов, которые подтвердят результаты для всех остальных, говорит Хайбе-Каинс.

Самая большая проблема с железом. DeepMind заявляет, что крупнейшие проекты типа AlphaGo или GPT-3, на которые тратят деньги большие лаборатории, в конце концов пойдут на пользу всем. Недоступный другим исследователям на ранних этапах ИИ, требующий огромных вычислительных мощностей, в процессе разработки часто становится более эффективным и более доступным. «AlphaGo Zero опередила предшественника AlphaGo, используя гораздо меньше вычислительных ресурсов», — говорит Корай Кавукчуоглу, вице-президент по исследованиям в DeepMind.

В теории это значит, что даже если воспроизвести исследование получится с опозданием, это всё равно будет возможно. Кавукчуоглу отмечает, что Жан-Карло Паскутто, бельгийский программист из Mozilla, пишущий в свободное время программы, играющие в шахматы и го, смог воспроизвести вариант AlphaGo Zero, назвав его Leela Zero, используя алгоритмы, описанные в работах DeepMind. Пиньо также считает, что такие флагманские исследования, как AlphaGo и GPT-3, встречаются редко. Она говорит, что большинство исследований в области ИИ работают на компьютерах, доступных средней лаборатории. И такая проблема не уникальная для ИИ. Пиньо и Бенайхом указывают на физику частиц, в которой некоторые эксперименты можно проводить только на таком дорогостоящем оборудовании, как Большой адронный коллайдер.

Однако эксперименты по физике проводятся на БАК несколькими лабораторями совместно. А крупные эксперименты с ИИ обычно проводятся на оборудовании, принадлежащем и контролируемом частными компаниями. Но Пиньо говорит, что и эта ситуация меняется. К примеру, группа Compute Canada собирает вычислительные кластеры, чтобы дать университетам возможность проводить крупные эксперименты с ИИ. Некоторые компании, в том числе и Facebook, предоставляют университетам ограниченный доступ к своему оборудованию. «Ситуация не полностью решена, — говорит она. – Но некоторые двери начинают открываться».

Редактируя или рецензируя рукопись, требуйте открыть общий доступ к соответствующему коду. Для науки это необходимость. Несмотря на отговорки Google, утаивающей код и подробности моделей, если бы в журнале Nature заявили, что не будут публиковать работу без этих подробностей, то в Google что-нибудь бы придумали.
Будем честны: следовать полезным практикам, делиться кодом, данными и другими материалами бывает неудобно для любых авторов (хотя некоторые практики могут облегчить эту задачу). Однако для развития науки это необходимо. Коммерческим предприятиям это не должно сходить с рук.

Хайбе-Каинс сомневается. Когда он попросил команду Google Health поделиться кодом от своего ИИ, ставящего онкологические диагнозы, ему сказали, что код ещё нужно дополнительно тестировать. Это же оправдание команда повторяет в формальном ответе на критику Хайбе-Каинса, также опубликованную в журнале Nature. «Мы собираемся подвергнуть наши программы всесторонним проверкам, перед тем, как начать использовать их в клинических условиях, работать вместе с пациентами, поставщиками услуг и регуляторами, чтобы всё работало эффективно и безопасно». Также исследователи заявили, что им не разрешено делиться всеми медицинскими данными, которые они используют.

Так не пойдёт, говорит Хайбе-Каинс. «Если они хотят сделать из этого коммерческий продукт, то я понимаю, почему они не хотят раскрывать всю информацию». Однако он считает, что если вы публикуете работу в научном журнале или на конференции, ваш долг – опубликовать код, который могли бы запустить другие. Иногда можно выпустить версию, обученную нам меньшем количестве данных, или использующую менее дорогое оборудование. Результаты, возможно, получатся хуже, но люди смогут с ними повозиться. «Граница между изготовлением коммерческого продукта и исследованием постоянно размывается, — говорит Хайбе-Каинс. – Думаю, что эта область знаний в итоге проиграет».

От исследовательских привычек тяжело отказаться

Если компании критикуют за публикацию работ, зачем вообще этим заниматься? Частично, конечно, дело в связях с общественностью. Однако в основном это нужно потому, что в лучших коммерческих лабораториях полно исследователей из университетов. В какой-то мере культура таких мест, как Facebook AI Research, DeepMind и OpenAI формируется традиционными академическими привычками. Также технологические компании выигрывают, участвуя в широком исследовательском сообществе. Все крупные ИИ-проекты в частных лабораториях строятся на множестве результатов, полученных опубликованными исследованиями. И мало какие исследователи ИИ не пользовались инструментами для МО с открытым кодом, типа PyTorch от Facebook или TensorFlow от Google.

Чем больше исследований будет проводиться в компаниях — технологических гигантах, тем больше придётся решать компромиссов между требованиями бизнеса и исследований. Вопрос в том, как исследователи будут решать эти проблемы. Хайбе-Каинс хотел бы, чтобы журналы типа Nature разделяли свои публикации на отдельные потоки – воспроизводимые исследования и демонстрация технических достижений.

Пиньо оптимистичнее смотрит в будущее. «Я бы не работала в Facebook, если бы тут не было открытого подхода к исследованиям», — говорит она.

Другие корпоративные лаборатории также настаивают на приверженности к открытости. «Научная работа требует тщательного изучения и воспроизводимости со стороны других исследователей, — говорит Кавукчуоглу. – Это важнейшая часть подхода к исследованиям у нас в DeepMind».

«OpenAI выросла в нечто очень не похожее на традиционную лабораторию», — говорит Кайла Вуд, представитель компании. «Естественно, к ней возникают вопросы». Она отмечает, что OpenAI работает с более чем 80 коммерческими и академическими организациями в рамках инициативы Partnership on AI, чтобы подумать о долгосрочных нормах публикации исследований.

Пиньо считает, что в этом что-то есть. Она считает, что компании, изучающие ИИ, демонстрируют третий способ проведения исследования, где-то между двумя потоками Хайбе-Каинса. Она сравнивает интеллектуальные результаты работы частных ИИ-лабораторий с фармацевтическими компаниями – последние вкладывают миллиарды в разработку лекарств, и большую часть результатов оставляют себе.

Долгосрочное влияние практик, внедрённых Пиньо и другими, ещё предстоит проследить. Изменятся ли привычки насовсем? Как это повлияет на использование ИИ вне исследований? Многое зависит от того, в каком направлении пойдёт ИИ. Тенденция к увеличению моделей и наборов данных – которой придерживается, к примеру, OpenAI – будет поддерживать ситуацию, в которой передовые варианты ИИ будут недоступными для большинства исследователей. С другой стороны, такие новые технологии, как сжатие моделей и обучение за несколько итераций [few-shot learning] может прервать эту тенденцию и позволить большему количеству исследователей работать с менее крупными и более эффективными ИИ.

Так или иначе, крупные компании продолжат доминировать в исследованиях ИИ. И если всё сделать правильно, в этом не будет ничего плохого, говорит Пиньо: «ИИ меняет систему работы исследовательских лабораторий». Главное – убедиться, что у более широкой общественности есть шанс поучаствовать в исследованиях. Поскольку вера к ИИ, от которого зависит многое, начинается с передовых рубежей.

 

Источник

воспроизводимость, исследования, наука

Читайте также