С вами снова Павел Бузин. Как и обещал в первой части саги о Нобелевской премии, сегодня поговорим о химии. Надеюсь, интерес публики к новости еще не угас, потому что, признаюсь, даже у меня, технически подкованного человека, ушло немало времени на то, чтобы разобраться в химической составляющей изысканий лауреатов этого года.
8 октября 2024 года теперь можно считать одной из важнейших дат в истории искусственного интеллекта, потому что Нобелевскую премию по химии присудили по сути за применение методов AI. Американец Дэвид Бейкер (David Baker) и сотрудники «дочки» Google в Британии Демис Хассабис (Demis Hassabis) и Джон Джампер (John M. Jumper) взяли приз за предсказание структуры белков. Стоп. А с каких это пор Google стал химическим концерном? В этой статье посмотрим на бэкграунд исследователей и методы, открытые ими чуть внимательнее.
Демис Хассабис и Джон Джампер являются, соответственно, CEO и директором в DeepMind — дочерней компании Google, специализирующейся на разработке и применении методов искусственного интеллекта. Стоит упомянуть, что Нобелевские премии и до этого неоднократно присуждались за открытия, сделанные сотрудниками исследовательских подразделений корпораций. Можно вспомнить Bell Labs (сейчас подразделение Nokia Corporation), исследователи которой создали первый транзистор и открыли реликтовое излучение. Или исследователей из IBM, что получили премии за создание туннельного микроскопа и открытие высокотемпературной сверхпроводимости.
Неоднократно вручались и премии за разработку новых инструментов и методов, позволяющих расширить возможности и получить кардинально новые научные результаты. Яркий пример из физики — это камера Вильсона (1927 год), в химии — методы синтеза молекул с заданными свойствами «клик-химия» (2022 год) и многое, многое другое.
Вычислительные методы, которые сейчас объединяют под названием Computer Science, также неоднократно отмечались высокой наградой. Большая их часть — Нобелевские премии по экономике (в силу отсутствия премии по математике), здесь в качестве примера можно упомянуть Леонида Канторовича (1975 год), отца линейного программирования, который получил премию с формулировкой «за вклад в теорию оптимального распределения ресурсов».
Что же такого в этот раз сделали в области компьютерных наук, что это признали революционным в химии?
Геометрическая химия
Пресс-релиз Нобелевского комитета гласит: «The Royal Swedish Academy of Sciences has decided to award the Nobel Prize in Chemistry 2024 … “for protein structure prediction”».
Уже интересно. Исследование белков — одна из важнейших областей современной науки, охватывающей химию, биологию, медицину, фармацевтику, компьютерные науки. В этой области исследователи сталкиваются с тремя большими проблемами:
-
сложность и дороговизна проведения экспериментов;
-
молекулы белков состоят из длинных цепочек, составленных из аминокислот, и количество их сочетаний – очень велико;
-
как и любые длинные молекулы, молекулы белков имеют большое количество внутренних степеней свободы и, закручиваясь, могут принимать различную форму, в том числе обладающую внутренней упорядоченной или неупорядоченной структурой.
При этом разные части молекул могут геометрически входить в механическое зацепление, которое не сопровождается возникновением новых химических связей. А это уже начинает сильно влиять на свойства белков при взаимодействии с другими агентами — химическими реактивами, другими белками, лекарствами, вирусами, различными элементами клеток.
В химии нередки случаи, когда формула вещества не меняется, но изменение положения молекул влияет на то, как это вещество взаимодействует с другими. Всем известно, что вода и лед — это одни и те же молекулы H2O, однако, лед занимает больший объем и менее охотно вступает в реакции. Понимать условия, при которых белки спонтанно меняют геометрию своих молекул, или знать, какие факторы инициируют это — крайне важно. Это влияет на такие вещи как:
-
сроки хранения лекарств и реактивов;
-
образование неактивных или даже токсичных изомеров белков;
-
спонтанное изменение или восстановление геометрии молекул со временем.
Процесс превращения цепочки аминокислот, составляющих молекулу белка в упорядоченную структуру, называют фолдингом белка (protein folding).
Типичная молекула белка — цепочка из сотен и тысяч атомов углерода, имеющих связи с атомами азота, кислорода, серы, циклические и ациклические соединения, гидроксильные группы и многое другое. То, в какое пространственное оригами в итоге «упакуется» цепочка аминокислот раньше невозможно было знать заранее. Только представьте: белок с цепочкой из 100 аминокислот может упаковываться в 1047 разных конфигураций. Самих аминокислот — около трех десятков, но дело осложняется еще и тем, что в синтезе белка изначально могут участвовать аминокислоты-энантиомеры: это молекулы, которые являются зеркальными копиями друг друга в пространстве (как правая и левая рука). Из-за своих геометрических свойств энантиомеры по-разному взаимодействуют с другими молекулами. Таким образом общее количество вариантов аминокислот, их сочетаний, энантиомеров и способов упаковать все это добро в молекулу белка превышает число частиц во Вселенной. К счастью для исследователей, природа не настолько разнообразна, и если понаблюдать за фолдингом и анфолдингом аминокислотных цепочек «в пробирке» выяснится, что выстраиваются они все-таки в ограниченное число конфигураций. Количество вариантов ограничено из-за того, что разная пространственная конфигурация молекулы обладает разной внутренней энергией и молекулы стремятся принять конфигурации с наименьшей внутренней энергией как наиболее стабильные.
Тема энантиомеров важна еще и потому, что в процессе биологической эволюции на земле все белки приняли только одну зеркальную ориентацию, называемую левосторонней (left-handed), что проявляется в направлении вращения поляризованного света при прохождении через раствор, содержащий энантиомер. Разделение энантиомеров невозможно физическими или химическими способами без разрушения молекул. При этом зеркальные копии могут быть неактивными или даже ядовитыми, а для получения чистого энантиомера приходится в процессе синтеза использовать «затравку» в виде природной молекулы, которая задает требуемую конфигурацию.
Прежде чем с головой нырнуть в мир химии белков, давайте освежим в памяти несколько терминов, которые нам потребуется позже.
В биохимии последовательности, состоящие из аминокислот и сахаров, которые не меняются в процессе реакций синтеза белков, именуют остатками (residue). Понятие остатка шире, чем группы атомов (такие как гидроксильные, карбоксильные или аминогруппы), поскольку может иметь более сложную структуру и состоять из нескольких групп.
Также нам потребуется понимание пептидной связи — это когда аминогруппы (—NH2) одной аминокислоты взаимодействуют с карбоксильной группой (—СООН) другой аминокислоты, устанавливая С=N связь с образованием свободной молекулы воды.
И нам нужно знать про три основных способа проведения эксперимента в биологии и химии: in vivo (в живом организме), in vitro (в пробирке) и in silico (на компьютере). Моделирование химических и биологических процессов жизненно необходимо в силу сложности и дороговизны натурных экспериментов.
Итак, поехали: in silico.
Краткая история белков «в цифре»
Одна из самых крупных баз данных о белках — Protein Data Bank (PDP), содержит информацию о 225 тысячах белков и других структур. В то время как общее количество известных белков, которые подробно не описаны, составляет 200 миллионов.
Основные методы, которые ранее использовались для предсказания форм молекул, были основаны на решении уравнений, описывающих распределении электронов в атомах (как развитие подходов решения уравнения Шредингера) и на геометрических свойствах атомов, которые можно получить как экспериментальные данные (рентгенография, туннельные микроскопы, статистические и другие методы).
Решение уравнения Шредингера для одиночного атома позволило получить информацию об орбиталях — одноэлектронных волновых функциях, позволяющих получить представление о распределении электронов в атоме. Решение задачи для двухатомной системы даже для текущего уровня развития суперкомпьютеров все еще невозможно.
Применение геометрического подхода позволяет понять, как осуществляются химические реакции для относительно простых молекул. В силу квантово-механических эффектов и температурных колебаний атомов в молекуле, молекула непрерывно дрожит и меняет свою форму, принимая некоторые устойчивые состояния. На рисунке ниже показаны возможные изменения, которые могут происходить: изменения углов между связями с соседними атомами (αi, βi, γi и другие), вращение вокруг межатомной связи (ωi, φi-1, ψi-1), изменение расстояния между соседними атомами (межатомная связь выступает в роли пружины/осциллятора). Отмечу, что атомы в процессе движения могут принимать не произвольные положения, а те, которые точно определяются энергетическими уровнями каждой молекулы.
Небольшое лирическое отступление — а почему в природе нет белковых циклических или ветвящихся структур? Как обыватели мы не знаем (вы если знаете, расскажите в комментариях). Но по логике вещей в природе белковые структуры образуются в процессе репликации. Подобные процессы спонтанной репликации для ветвящихся структур невозможны, более того — они возможны только для ограниченной доли линейных и циклических структур. А вот в лабораторных условиях ветвящиеся структуры можно синтезировать и изучать, в чем нам и помогает компьютерное моделирование.
Для белков, состоящих большого числа аминокислот, потребовалось расширение абстрактного описания в виде химических формул, к которому мы привыкли на уроках химии. Биологи и химики оперируют четырехуровневым представлением:
-
Первичная структура белка (Primary Protein Structure) — одномерная последовательность аминокислот.
-
Вторичная структура белка (Secondary Protein Structure) — складывание в повторяющиеся структуры, линейные или спиральные.
-
Третичная структура белка (Tertiary Protein Structure) — трехмерное свертывание посредством взаимодействия боковых атомов и групп атомов (торчащих в сторону от основной цепочки, которая состоит, в основном, из атомов углерода).
-
Четвертичная структура белка (Quaternary Protein Structure) — структура белка формируется несколькими цепочками взаимодействующих аминокислот. Для визуализации четвертичной структуры белка применяют также представление в виде линий, в виде лент, в виде палочек-связей между атомами и в виде поверхности электронного облака, окружающего молекулу белка.
На рисунке ниже проиллюстрированы структуры белка human foetal deoxyhaemoglobin protein (PDB: 1FDH)
Думаю, из сказанного выше вы убедились, что изучение фолдинга белков — невероятно сложная сфера. Давайте совершим короткий экскурс в историю того, как задачи о предсказаниях структуры белков решались до 2024 года.
1994 год — Critical Assessment of protein Structure Prediction
Сегодня мы уже привыкли к хакатонам. А как насчет чемпионата по фолдингу белковых структур? В 1994 году состоялся первый чемпионат CASP — Critical Assessment of protein Structure Prediction (критическая оценка предсказания белковых структур), с тех пор он проходит каждые два года. Команды исследователей получают аминокислотную последовательность и соревнуются в предсказании вторичных и третичных структур для ранее не исследованных белков. Ни организаторы, ни эксперты, ни участники не знают структуры тестируемых белков до окончания стадии предсказаний.
2005—2008 год — Rosetta@home и Foldit
Еще в 2003 году проект «Геном человека» секвенировал 85% человеческого генома. Исследователи выяснили аминокислотные последовательности почти всех белков в человеческом организме и решили: раз мы изучили все, что есть, давайте создадим в виртуальной пробирке то, чего нет. Например, новые более активные белки или способы изменения структур, виновных в серьезных заболеваниях.
Так появился проект добровольных вычислений Rosetta@home, где коллективные вычислительные ресурсы использовались исследователями для предсказания третичной структуры белков и прогнозирования взаимодействия белковых структур. Но была одна проблема: ученых, способных в свободное время придумывать новые молекулы не так уж много. И чтобы ускорить победу над раком и Альцгеймером энтузиасты решили популяризировать фолдинг белков и превратить суровую забаву для ученых в кубик Рубика, с которым может поупражняться каждый. Главным энтузиастом этой инициативы был как раз будущий лауреат этого года Девид Бейкер.
Именно он вместе с коллегами разработал онлайн-головоломку Foldit, где люди даже без специфических знаний в области химии могут «покрутить» аминокислотную последовательность для решения конкретной задачи. В конце концов, 38 000 голов (количество пользователей Rosetta@home на 2011 год) — хорошо, а 240 000 (количество игроков в Foldit в год релиза) — лучше. Цель головоломки состоит в поиске трехмерной структуры определенного белка с самым низким уровнем свободной энергии. Каждое задание публикуется на сайте на определенный срок, в течение которого пользователи соревнуются между собой. С помощью Foldit удалось совершить несколько научных прорывов: например, расшифровать структуру вируса, вызывающего СПИД у обезьян, и изменить структуру белка, отвечающего за катализ реакции Дильса — Альдера.
2017—2024 — AlphaFold
Пришло время поговорить про самое интересное. Следите за руками:
-
В 2010 году в Лондоне возникает стартап DeepMind Technologies, который занимается искусственным интеллектом.
-
В 2014 компанию приобретает Google.
-
В 2016 году модель AlphaZero, разработанная командой DeepMind, выигрывает партию в го у чемпиона мира Ли Седоля.
-
В 2017 году AlphaZero, получает высший шахматный рейтинг, победив в серии из 100 партий сильнейшую на тот момент шахматную программу StockFish 8. Компания DeepMind обучает широкое семейство моделей Alpha, которые достигают блестящих успехов в разных областях.
-
В 2018 году к семейству моделей Alpha добавляется AlphaFold, предназначенная для предсказания структуры белка. Разработкой модели руководят Демис Хассабис и Джон Джампер. Исследовательская команда участвует в 13-ом чемпионате CASP и берет первое место.
-
В 2020 году AlphaFold2 снова решила главную задачу CASP, да так хорошо, что главный научный журнал мира Nature назвал это «прорывом».
К чести Google она выложила модели AlphaFold и AlphaFold2 в открытый доступ для использования другими исследователями, а также создала базу структур белков AlphaFold Protein Structure Database и наполнила ее информацией о 200 миллионах белковых структур, рассчитанных DeepMind. Для желающих – ссылки на первоисточники:
-
Репозиторий AlphaFold: https://github.com/google-deepmind/alphafold
-
AlphaFold Protein Structure Database: https://alphafold.ebi.ac.uk/
-
Дополнительное описание модели: https://pmc.ncbi.nlm.nih.gov/articles/instance/8387230/bin/41586_2021_3819_MOESM1_ESM.pdf
А теперь о том, что же там внутри.
Внутри AlphaFold
Если верить описанию, AlphaFold «напрямую предсказывает 3D-координаты всех тяжелых атомов для данного белка, используя в качестве входных данных первичную аминокислотную последовательность и выровненные последовательности гомологов».
Рекомендую почитать первоисточники, не пожалеете
Архитектуру AlphaFold2 DeemMind открыли в статье в журнале Nature, опубликованной 15 июля в 2021 года (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8371605/). Самое интересное – в дополнении в этой статье, в Supplementary information. Специалистам в области машинного обучения можно сразу перейти по ссылке для его изучения https://pmc.ncbi.nlm.nih.gov/articles/instance/8387230/bin/41586_2021_3819_MOESM1_ESM.pdf.
Поделюсь своим мнением относительно того, что в AlphaFold2 было важным, интересным, реально очень сложным и прорывным.
Первое, что привлекает внимание — обучающий датасет. Команда DeepMind использовала данные о 250+ тысячах белков и их свойствах (таких как размеры, конфигурации, углы между связями, расстояния между атомами и другие) из Protein Data Bank. На следующем шаге была создана отдельная модель для генерации синтетических примеров на основе реальных данных (аугментация данных) для создания обучающего датасета AlphaFold2. При этом 25% были оригинальными примерами белков из Protein Data Bank, а 75% — синтетическими. При проверке правильности синтетических примеров использовали как метрику расстояние Кульбака-Лейбнера для пар реальный пример-синтетический пример.
Модель AlphaFold2 работает с последовательностями аминокислот, составляющих белки называемые multiple sequence alignments (MSA). На вход модели AlphaFold2 подаются эмбеддинги MSA, составляющих белки, и фичи известных пар последовательностей известных белков (из обучающего датасета). Сеть состоит из двух основных модулей: модуля Evoformer и модуля структуры.
Evoformer оперирует эмбеддингами MSA, а также данными о геометрии реальных молекул (углы, расстояния, конфигурация). Модуль включает 48 последовательных блоков и использует механизм attention, в том числе для вычисления углов между атомами. Цитируя DeepMind: «ключевыми инновациями в блоке Evoformer являются новые механизмы обмена информацией внутри MSA и парные репрезентации, позволяющие напрямую рассуждать о пространственных и эволюционных отношениях». В результате Evoformer реализует геометрический подход при вычислении формы молекул белков.
В качестве результата Evoformer выдает:
-
массив Nseq × Nres, который представляет обработанный MSA (Nseq — количество последовательностей аминокислот, Nres — количество остатков — тех самых групп атомов, о которых мы говорили в разделе «Геометрическая химия»);
-
массив Nres × Nres, который представляет пары остатков.
Выходные данные Evoformer подаются на вход модуля структуры для восстановления.
Модуль структуры используется для восстановления предсказываемой формы молекулы посредством представления (representation) вращения и перемещения для каждого остатка белка. Модуль итеративно моделирует эволюцию начального состояния (положение атомов и связей), многократно подавая результат работы модуля обратно на вход. Такое итеративное уточнение (авторы называют его «рециркуляцией») заметно повышает точность при незначительном увеличении времени обучения. Сохранение последовательности атомов N-Cα-C в молекуле белка при восстановлении формы молекулы обеспечивает модуль Invariant point attention (IPA).
В процессе восстановления 3D-структуры должны выполняться многие ограничения, включая неравенство треугольника для расстояний. Для этого применяется сочетание операций последовательного обновления треугольников и работа модуля triangle self-attention. Такой процесс более точный и производительный в сравнении только с механизмом attention или обновления треугольников по отдельности.
При восстановлении геометрии предсказываемого белка в AlphaFold2 используются кватернионы. Это такое расширение комплексных чисел, применяемое в механике для описания движения твердого тела. Кватернионы представляют число в виде q=a+bi+cj+dk, где a, b, c, d — вещественные числа, а i, j, k — мнимые единицы со свойствами i2 = j2 = k2 = ijk = −1.
Кватернионы — это вышка вышки в высшей математике. Они позволяют удобно представлять вращение объектов в пространстве, упрощают расчеты и минимизируют возможные ошибки в вычислениях. Применение кватернионов является подтверждением высшего уровня проработки задачи в части геометрических свойств молекул.
Также в модуле структуры реализован механизм, учитывающий расположение соседних групп атомов и возникающих между ними пептидных связей.
В результате на выходе AlphaFold2 мы имеем данные о положении атомов, составляющих молекулу белка, форма которой смоделирована сетью.
При этом AlphaFold2 достигает очень высокой точности и оказалась намного точнее, чем конкурирующие методы. Медианная точность AlphaFold2 составляет 0,96 Å (ангстрем, 10-10 метра), что сравнимо с размерами атома углерода 1,4 Å. При этом AlphaFold2 можно применять для анализа белков с длинными цепочками и доменной упаковкой без существенной потери точности.
И в качестве вишенки на торт — модель выложена в открытом доступе в репозитории с описанием как развернуть образ в Google Cloud. AlphaFold2 очень экономно относится к вычислительным ресурсам — для работы ей достаточно всего 12 vCPUs, 85 GB RAM и одной GPU A100. По утверждению DeepMind, AlphaFold2 использовали уже более 2 миллионов раз.
Вместо заключения
Часто приходится слышать, что Нобелевскую премию присудили несправедливо: то биологам за химию дадут, то информатикам за физику. Действительно, Дэвид Бейкер — биоинформатик и биохимик, почти всю жизнь посвятил дизайну белков и предсказанию их третичной структуры. Заслуги Демиса Хассабиса Джона Джампера больше лежат в поле науки о данных, вычислительной биологии и химии, и все они получили Нобелевскую премию за создание инструментов на основе нейронных сетей и их применение. Стоит ли по этому поводу возмущаться общественности? Я бы сказал, что стоит радоваться. Огромное количество кросс-дисциплинарных исследований и тот факт, что нам становится сложно провести четкую черту между физикой, химией, биологией, медициной и информатикой говорит скорее о том, насколько глубоко мы проникли в суть окружающего нас мира, чем об ангажированности Нобелевского комитета.
Главный вывод, который можно сделать из премий этого года: Нобелевский комитет и научный мир в целом зафиксировал возникновение новой реальности, в которой нейросети такой же инструмент в руках исследователя как микроскоп или ускоритель частиц. Раньше у науки были экспериментальные факты и теории, позволяющие интерпретировать действительность и имеющие предсказательную силу. Теперь артефакты науки пополнились моделями машинного обучения, что примечательно, модели — сущности, имеющие предсказательную силу, но при этом неинтерпетируемые.
Источники для любопытных
https://deepmind.google/discover/blog/demis-hassabis-john-jumper-awarded-nobel-prize-in-chemistry/
https://www.nobelprize.org/prizes/chemistry/2024/press-release/
https://www.nobelprize.org/uploads/2024/10/advanced-chemistryprize2024.pdf
https://github.com/google-deepmind/alphafold
https://deepmind.google/discover/blog/alphazero-shedding-new-light-on-chess-shogi-and-go/
https://alphafold.ebi.ac.uk/
https://en.wikipedia.org/wiki/Proteinogenic_amino_acid
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8371605/
https://www.wired.com/story/deepmind-beats-pros-starcraft-another-triumph-bots/
Другие статьи в блоге: