В последние годы огромное внимание со стороны как ученых, так и обывателей получили большие языковые модели, такие как GPT. Они нашли свое применение в обработке естественного языка, в биологии и химии, и даже в программировании. В результате разгорелись дебаты на тему этических аспектов применения подобных моделей, а также попытки установить, где еще могут быть применены большие языковые модели. Ученые из Национального научного фонда (США) создали Coscientist — систему искусственного интеллекта, управляемая GPT-4, которая автономно проектирует, планирует и выполняет сложные лабораторные эксперименты. Как работает искусственный лаборант, какие опыты он может проводить, и какое влияние он может оказать на будущее экспериментов? Ответы на эти вопросы мы найдем в докладе ученых.
Основа исследования
Большие языковые модели (LLM от large language model), особенно модели на основе преобразователей, в последние годы быстро развиваются. Эти модели успешно применяются в различных областях, включая естественный язык, биологические и химические исследования, а также генерацию кода. Экстремальное масштабирование моделей, как продемонстрировал OpenAI, привело к значительным прорывам в этой области. Более того, такие методы, как обучение с подкреплением на основе отзывов людей, могут значительно повысить качество сгенерированного текста и способность моделей выполнять разнообразные задачи, обдумывая свои решения.
В 2023 году OpenAI выпустила свою самую мощную на сегодняшний день LLM — GPT-4. Параллельно был достигнут значительный прогресс в автоматизации химических исследований. Примеры варьируются от автономного открытия и оптимизации органических реакций до разработки автоматизированных систем и мобильных платформ.
Сочетание технологий автоматизации лабораторных исследований с мощными LLM открывает двери для разработки системы, которая автономно проектирует и выполняет научные эксперименты.
В рассматриваемом нами сегодня труде ученые описывают созданную ими систему на базе нескольких LLM — Coscientist. Данная система способна самостоятельно проектировать, планировать и проводить сложные научные эксперименты. Coscientist может использовать инструменты поиска данных в сети и в соответствующей документации, использовать интерфейсы прикладного программирования (API) для роботизированных экспериментов, а также использовать другие LLM для различных задач. В ходе проведенного исследования перед Coscientist было поставлено несколько задач, которые система успешно выполнила:
- планирование химического синтеза известных соединений с использованием общедоступных данных;
- эффективный поиск и навигация по обширной документации по оборудованию;
- использование документации для выполнения команд высокого уровня в облачной лаборатории;
- точное управление инструментами для работы с жидкостями с помощью инструкций низкого уровня;
- решение сложных научных задач, требующих одновременного использования нескольких аппаратных модулей и интеграции различных источников данных;
- решение задач оптимизации, требующих анализа ранее собранных экспериментальных данных.
Архитектура системы Coscientist
Coscientist приобретал необходимые знания для решения сложной задачи, взаимодействуя с множеством модулей (поиск в Интернете и документации, выполнение кода) и проводя эксперименты. Основной модуль («Planner», т. е. планировщик) предназначен для планирования на основе ввода пользователя путем вызова команд. Планировщик — это завершенный чат с GPT-4, выполняющий роль помощника. Первоначальный ввод пользователя вместе с выводами команд обрабатываются как пользовательские сообщения для планировщика. Системные подсказки (статические входные данные, определяющие цели LLM) для Планировщика разработаны по модульному принципу и описываются как четыре команды, определяющие пространство действий: «GOOGLE», «PYTHON», «DOCUMENTATION» и «EXPERIMENT». Планировщик вызывает каждую из этих команд по мере необходимости для сбора знаний.
Изображение №1
Команда GOOGLE отвечает за поиск в Интернете с помощью модуля «Web searcher» (веб-поиск), который сам по себе является еще одним LLM. Команда PYTHON позволяет планировщику выполнять расчеты для подготовки эксперимента с использованием модуля «Code execution» (выполнение кода). Команда EXPERIMENT реализует «Automation» (автоматизация) через API, описанные в модуле DOCUMENTATION. Как и GOOGLE, команда DOCUMENTATION предоставляет информацию основному модулю из источника, в данном случае документацию, касающуюся желаемого API. В этом исследовании была продемонстрирована совместимость с API Opentrons Python и языком SLL (от Symbolic Lab Language) Emerald Cloud Lab (ECL). Вместе эти модули составляют систему Coscientist, которая получает от пользователя простую текстовую подсказку (например, «выполнить несколько реакций Сузуки»).
Более того, некоторые команды могут использовать поддействия. Команда GOOGLE способна преобразовывать подсказки в соответствующие запросы веб-поиска, сравнивать их с API поиска Google, просматривать веб-страницы и направлять ответы обратно в планировщик. Аналогично, команда DOCUMENTATION выполняет поиск и обобщение необходимой документации, чтобы планировщик мог вызвать команду EXPERIMENT.
Команда PYTHON реализует выполнение кода (не полагаясь на какую-либо языковую модель) с использованием изолированного контейнера Docker для защиты компьютера пользователя от любых неожиданных действий, запрошенных планировщиком. Важно отметить, что языковая модель планировщика позволяет исправлять код в случае ошибок программного обеспечения. То же самое относится и к команде EXPERIMENT модуля автоматизации, которая выполняет сгенерированный код на соответствующем оборудовании или предоставляет синтетическую процедуру для экспериментирования, выполняемого вручную.
Изображение №2
Чтобы продемонстрировать одну из функций модуля Web Searcher, ученые разработали тестовый набор, состоящий из семи соединений для синтеза, как показано на 2a. Версии модуля Web Searcher представлены как «search-gpt-4» и «search-gpt-3.5-turbo». Базовые показатели включают GPT-3.5 и GPT-4 от OpenAI, Claude 1.3 от Anthropic и Falcon-40B-Instruct, которые на момент проведения эксперимента считались одной из лучших моделей с открытым исходным кодом согласно OpenLLM.
Ученые предложили каждой модели предоставить подробный синтез соединений, ранжируя результаты по следующей шкале (графики выше):
- 5 за очень подробное и химически точное описание процедуры;
- 4 за подробное и химически точное описание, но без указания количества реагентов;
- 3 за правильное описание химического состава, не включающее пошаговую процедуру;
- 2 за крайне расплывчатые или невыполнимые описания;
- 1 за неправильные ответы или невыполнение инструкций;
Все оценки ниже 3 указывают на невыполнение задачи. Важно отметить, что все ответы между 3 и 5 являются химически правильными, но имеют разный уровень детализации.
Среди моделей без веб-поиска две версии модели GPT-4 показали лучшие результаты, при этом Claude v.1.3 продемонстрировал аналогичную производительность. GPT-3 показал себя значительно хуже, а Falcon 40B в большинстве случаев просто выходил из строя. Все модели без поиска неправильно синтезировали ибупрофен (2c). Нитроанилин – еще один пример. Хотя некоторое обобщение химических знаний могло бы подвигнуть модель на предложение прямого нитрования, этот подход экспериментально неприменим, поскольку он приводит к образованию смеси соединений с очень небольшим количеством продукта (2b). Только модели GPT-4 иногда давали правильный ответ.
Веб-поиск на базе GPT-4 значительно улучшал планирование синтеза. Он достиг максимальных баллов во всех исследованиях по ацетаминофену, аспирину, нитроанилину и фенолфталеину (2b). Хотя он был единственным, кто достиг минимально приемлемого балла в три для ибупрофена, его результаты были ниже, чем у некоторых других моделей для этилацетата и бензойной кислоты, возможно, из-за широко распространенного характера этих соединений. В целом, производительность веб-поиска с поддержкой GPT-3.5 отставала от GPT-4, главным образом из-за неспособности следовать конкретным инструкциям относительно формата вывода.
Расширение пространства действий планировщика за счет использования баз данных реакций, таких как Reaxys или SciFinder, должно значительно повысить производительность системы (особенно для многоэтапного синтеза). Альтернативно, анализ предыдущих утверждений системы является еще одним подходом к повышению ее точности. Это можно сделать с помощью стратегий расширенных подсказок, таких как ReAct, Chain of Thought и Tree of Thoughts.
Изображение №3
Учет сложностей программных компонентов и их взаимодействия имеет решающее значение для интеграции LLM с лабораторной автоматизацией. Ключевая задача заключается в том, чтобы дать возможность Coscientist эффективно использовать техническую документацию. LLM могут улучшить свое понимание распространенных API, таких как Opentrons Python API, интерпретируя и изучая соответствующую техническую документацию.
Главный подход заключался в оснащении Coscientist необходимой документацией, адаптированной к конкретным задачам (3a), что позволило ему повысить точность использования API и повысить производительность при автоматизации экспериментов.
Информационно-поисковые системы обычно основаны на двух подходах к выбору кандидатов: инвертированном поисковом индексе и векторной базе данных. В первом случае каждое уникальное слово в индексе поиска сопоставляется с содержащими его документами. Во время вывода все документы, содержащие слова из запроса, выбираются и ранжируются на основе различных формул, определенных вручную. Второй подход начинается с внедрения документов с помощью нейронных сетей или векторов встраивания, обратных частоте терминов, с последующим созданием базы данных векторов. Извлечение подобных векторов из этой базы данных происходит во время вывода, обычно с использованием одного из приблизительных алгоритмов поиска ближайшего соседа. При использовании таких стратегий, как модели Transformer, появляется больше шансов учесть синонимы изначально без расширения запроса на основе синонимов, как это было бы сделано в первом подходе.
Следуя второму подходу, все разделы документации API OT-2 были встроены с использованием OpenAI модели ada. Для обеспечения правильного использования API было создано встраивание ada для запроса планировщика, а разделы документации выбираются посредством векторного поиска на основе расстояния. Этот подход оказался критически важным для предоставления Coscientist информации об аппаратном модуле нагреватель-шейкер, необходимой для проведения химических реакций (3b).
Для опыта №1 ученые предоставили поисковику документов руководство по документации от ECL, касающееся всех доступных функций для проведения экспериментов. На 3c приведен пример того, как пользователь предоставляет системе простой запрос, а планировщик получает соответствующие функции ECL. Во всех случаях функции для задачи определены правильно.
На 3c и 3d показан опыт №2 — запроса на SLL. Для задачи выбирается одна подходящая функция, а документация передается через отдельную модель GPT-4 для сохранения и обобщения кода. После обработки всей документации планировщик получает информацию об использовании для предоставления кода EXPERIMENT в SLL. Например, ученые предоставляли простой пример, для которого требуется функция «ExperimentHPLC». Правильное использование этой функции требует знания конкретных «моделей» и «объектов», как они определены в SLL. Сгенерированный код был успешно выполнен при ECL. Образец представлял собой стандартный образец кофеина. Остальные параметры определялись с помощью внутреннего программного обеспечения ECL.
Однако было замечено, что пузырек воздуха был введен вместе с раствором аналита. Это демонстрирует важность разработки автоматизированных методов контроля качества в облачных лабораториях. Для оптимизации экспериментальных результатов потребуются последующие эксперименты с использованием веб-поиска для определения и/или уточнения дополнительных экспериментальных параметров (химический состав, буферная система, градиент и т. д.).
Изображение №4
Доступ к документации позволяет предоставлять Coscientist достаточную информацию для проведения экспериментов в физическом мире. Для начала опыта ученые выбрали Opentrons OT-2, обработчик жидкости с открытым исходным кодом и хорошо документированным API Python. Страница «Начало работы» из документации была предоставлена планировщику в системной подсказке. Остальные страницы были векторизованы с использованием описанного выше подхода. Для этого опыта ученые не предоставляли системе доступ к Интернету (4a).
Ученые начали с простых экспериментов, посвященных компоновке пластин. Простые подсказки на естественном языке, такие как «раскрасьте каждую вторую линию одним цветом по вашему выбору», привели к созданию точных протоколов. При выполнении роботом эти протоколы очень напоминали первичный запрос (4b—4e).
В конечном итоге ученые стремились оценить способность системы интегрировать несколько модулей одновременно. В частности, была предоставлена команда UVVIS, которую можно использовать для передачи микропланшета к считывателю, работающему в ультрафиолетово-видимом диапазоне длин волн. Чтобы оценить возможности Coscientist по использованию нескольких аппаратных инструментов, ученые разработали задачу – в 3 лунках 96-луночного планшета присутствуют три разных цвета: красный, желтый и синий. Система должна определить цвета и их положение на пластине без какой-либо предварительной информации.
Первым действием Coscientist было подготовить небольшие образцы исходных растворов. Затем Coscientist было предложено провести измерения в ультрафиолетовой и видимой областях. После завершения Coscientist получил имя файла, содержащего массив NumPy со спектрами для каждой лунки микропланшета. Впоследствии Coscientist сгенерировал код Python для определения длин волн с максимальным поглощением и использовал эти данные для правильного решения задачи, хотя для этого требовалась подсказка, предлагающая подумать о том, как разные цвета поглощают свет.
Изображение №5
Далее ученые проверили способность Coscientist планировать эксперименты по каталитическому кросс-сочетанию*, используя данные из Интернета, выполняя необходимые расчеты и написав код для устройства обработки жидкостей. Чтобы усложнить задачу, Coscientist должен был использовать модуль нагревателя-шейкера OT-2. Доступные команды и действия, предоставляемые Coscientist, показаны на 5a. Установка еще не полностью автоматизирована (пластины перемещались вручную), но человек не принимал никаких решений.
Реакция кросс-сочетания* — это реакция, в которой соединяются два разных фрагмента. В реакциях кросс-сочетания компоненты реагентов называются партнерами кросс-сочетания или просто партнерами сочетания.
Тестирование возможностей Coscientist по сложным химическим экспериментам было разработано следующим образом:
- Coscientist предоставляется манипулятор с жидкостью, оснащенный двумя микропланшетами (исходной и целевой пластинами);
- исходная пластина содержит первичные растворы нескольких реагентов, включая фенилацетилен и фенилбороновую кислоту, несколько партнеров арилгалогенида, два катализатора, два основания и растворитель (5b);
- на модуле нагревателя-шейкера ОТ-2 установлена целевая пластина (5c);
- цель Coscientist — успешно разработать и реализовать протокол реакций соединения Сузуки-Мияура и Соногаширы с учетом имеющихся ресурсов.
Для начала Coscientist ищет в Интернете информацию о целевых реакциях, их стехиометрии и условиях (5d). Для соответствующих реакций выбираются правильные партнеры сочетания. При планировании и проведении запрошенных экспериментов стратегия Coscientist меняется от опыта к опыту (5f). Важно отметить, что система не допускает химических ошибок (например, она никогда не выбирает фенилбороновую кислоту для реакции Соногаширы). Кроме того, модель может предоставить обоснование конкретного выбора (5g), демонстрируя способность оперировать такими понятиями, как реактивность и селективность. Модуль Web Searcher посещал различные сайты (5h), при этом в половине случаев Coscientist находил страницы Википедии. При этом журналы Американского химического общества и Королевского химического общества входили в пятерку лучших источников.
Затем Coscientist рассчитывает необходимые объемы всех реагентов и пишет протокол Python для проведения эксперимента на роботе ОТ-2. Однако было использовано неправильное название метода модуля нагревателя-шейкера. Совершив эту ошибку, Coscientist использует модуль поиска документов, чтобы просмотреть документацию OT-2. Затем Coscientist модифицирует протокол до исправленной версии, которая успешно работает.
Последующий хромато-масс-спектрометрический анализ реакционных смесей выявил образование целевых продуктов обеих реакций. Для реакции Сузуки на хроматограмме присутствует сигнал на 9.53 мин, где масс-спектры соответствуют масс-спектрам бифенила (5i). Для реакции Соногаширы был виден сигнал на 12.92 мин с соответствующим соотношением массы и заряда молекулярного иона. Картина фрагментации также очень близка к таковой в спектрах реферальных соединений (5j).
Хотя этот пример требует от Coscientist рассуждать о том, какие реагенты наиболее подходят, экспериментальные характеристики ограничивали число потенциальных соединений, которые необходимо исследовать. Чтобы решить эту проблему, ученые провели несколько вычислительных экспериментов для оценки того, как аналогичный подход можно использовать для извлечения соединений из больших библиотек данных. На 5e показана производительность Coscientist при выполнении пяти распространенных органических преобразований, причем результаты зависят от запрошенной реакции и от конкретного опыта. Для каждой реакции Coscientist было поручено сгенерировать реакции для соединений из базы данных SMILES (от Simplified Molecular Input Line Entry System, т. е. система упрощенного представления молекул в строке ввода). Для решения этой задачи Coscientist использует веб-поиск и исполнение кода с помощью хемоинформатического набора инструментов RDKit.
Изображение №6
Разработанная система демонстрирует значительные возможности в рассуждениях, позволяя запрашивать необходимую информацию, решать многоэтапные задачи и генерировать код для планирования эксперимента.
Одна из возможных стратегий оценки способностей интеллектуального агента к рассуждению — проверить, может ли он использовать ранее собранные данные для руководства будущими действиями. В данном исследовании ученые сосредоточились на многовариантном проектировании и оптимизации реакций преобразования, катализируемых палладием, демонстрируя способности Coscientist решать реальные экспериментальные кампании, включающие тысячи примеров. Вместо подключения LLM к алгоритму оптимизации ученые стремились напрямую использовать Coscientist.
Ученые выбрали два набора данных, содержащие полностью картированные пространства условий реакции, где выход был доступен для всех комбинаций переменных. Один из них представляет собой набор данных о реакциях Сузуки, где эти реакции проводились с различными лигандами, реагентами/основаниями и растворителями (6a). Второй набор данных содержал реакции Бухвальда-Хартвига Дойла (6e), в котором были зафиксированы изменения в лигандах, добавках и основаниях. На этом этапе любая реакция, предложенная Coscientist, будет находиться в этих наборах данных и доступна в виде справочной таблицы.
Ученые разработали тест на способность Coscientist к химическому мышлению как игру, целью которой является максимизация выхода реакции. Действия игры заключались в выборе конкретных условий реакции с разумным химическим объяснением и перечислением наблюдений игрока о результатах предыдущей попытки. Единственное жесткое правило заключалось в том, что игрок должен предоставлять свои действия в формате JavaScript Object Notation (JSON). Если файл JSON не удалось проанализировать, игрок получает предупреждение о том, что он не соответствует указанному формату данных. У игрока было максимум 20 попыток (что составляет 5.2% и 6.9% от общего пространства для первого и второго наборов данных соответственно), чтобы закончить игру.
Ученые оценивали эффективность Coscientist, используя нормализованную метрику преимущества (6b). Преимущество определяется как разница между заданным выходом попытки и средним выходом. Метрика нормализованного преимущества имеет значение 1, если достигнута максимальная доходность; 0, если система демонстрирует полностью случайное поведение, и < 0, если производительность на этом этапе хуже случайной. Увеличение нормализованного преимущества на каждой попытке демонстрирует способности Coscientist к химическому мышлению. Лучший результат для конкретной попытки можно оценить с помощью нормализованного максимального преимущества (NMA от normalized maximum advantage), которое представляет собой нормализованное значение максимального преимущества, достигнутого до текущего шага. Поскольку NMA не может уменьшаться, ценные наблюдения представляют собой скорость ее увеличения и ее конечную точку. Наконец, на первом этапе значения NMA и нормализованного преимущества равны друг другу, отражая предварительные знания модели (или их отсутствие) без сбора каких-либо данных.
Для набора данных Сузуки ученые сравнили три отдельных подхода:
- GPT-4 с предварительной информацией, включенной в подсказку (которая состояла из 10 выходов случайных комбинаций реагентов);
- GPT-4;
- GPT-3.5 без предварительной информации (6c).
При сравнении GPT-4 с включением и исключением предварительной информации становится ясно, что первоначальное предположение для первого сценария лучше. Примечательно, что при исключении предварительной информации возникают неверные первоначальные предположения. Если же такая информация есть, то подобных проблем не наблюдается. Однако в пределе модели сходятся к одному и тому же NMA. Графики модели GPT-3.5 имеют очень ограниченное количество точек данных, в первую очередь из-за невозможности выводить сообщения в правильном формате JSON, как это требуется в запросе. Неясно, содержат ли данные обучения GPT-4 какую-либо информацию из этих наборов данных. Если это так, можно было бы ожидать, что первоначальное предположение модели будет лучше, чем то, что наблюдалось.
Нормализованные значения преимущества со временем увеличиваются. Это позволяет предположить, что модель может эффективно повторно использовать полученную информацию для предоставления более конкретных рекомендаций по реактивности. Оценка производных графиков (6d) не показывает какой-либо существенной разницы между случаями с вводом априорной информации и без нее.
Существует множество устоявшихся алгоритмов оптимизации химических реакций. По сравнению со стандартной байесовской оптимизацией оба подхода на основе GPT-4 демонстрируют более высокие значения NMA и нормализованного преимущества (6c). Стоит отметить, что нормализованная линия преимущества байесовской оптимизации остается около нуля и не увеличивается с течением времени. Это может быть вызвано разным балансом разведки/эксплуатации этих двух подходов и может не отражать их эффективность. Для этой цели следует использовать график NMA. Изменение количества начальных выборок не улучшает траекторию байесовской оптимизации. Наконец, эта тенденция производительности наблюдается для каждой уникальной пары субстратов.
Для набора данных Бухвальда-Хартвига (6e) ученые сравнили версию GPT-4 без предварительной информации, работающую с именами химических соединений или с их символьными рядами SMILES. Очевидно, что оба варианта имеют очень похожий уровень производительности (6f). Однако в определенных сценариях модель демонстрирует способность рассуждать о реакционной способности этих соединений, основываясь исключительно на их символьных рядах SMILES (6g).
Для более подробного ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.
Эпилог
В рассмотренном нами сегодня труде ученые представили систему искусственного интеллекта, способную автономно проектировать, планировать и выполнять научные эксперименты. Данная система получила название Coscientist. Самые сложные реакции, которые реализовал Coscientist, известны в органической химии как перекрестные реакции, катализируемые палладием.
Главным элементом Coscientist являются большие языковые модели, то есть ИИ, способные извлекать смысл и закономерности из огромных объемов данных, включающих документы и сайты. Ярким примером такой модели является GPT от OpenAI.
Coscientist также был оснащен несколькими различными программными модулями, которые позволяют Coscientist искать общедоступную информацию о химических соединениях, находить и читать технические руководства по управлению роботизированным лабораторным оборудованием, писать компьютерный код для проведения экспериментов и анализировать полученные данные.
Во время финального тестирования перед Coscientist была поставлена весьма сложная задача — выполнить реакции Сузуки и Соногаширы. Эти реакции, открытые еще в 70-ых, стали фундаментом для создания новых типов лекарств и органических полупроводников. Coscientist ранее не выполнял такого рода задач, то есть не мог полагаться на свою базу знаний. Потому Coscientist использовал Википедию для восполнения недостающей информации.
Авторы разработки уверены, что разумное использование их системы может в разы ускорить исследования, проводимые в лабораторных условиях. Тем не менее это не значит, что вся лабораторная деятельность будет возложена на плечи ИИ. Даже самый развитый искусственный интеллект лишен человеческой креативности и любопытства, являющихся одними из самых важных для научной деятельности качеств.
Немного рекламы
Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).
Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?