Поэтика мутации: искусственный интеллект поможет изучить «ускользающие» вирусы

15.01.2021

Специалисты по биоинформатике использовали алгоритм, предназначенный для моделирования человеческого языка, чтобы предсказать, как вирусы могут эволюционировать, защищаясь от иммунной системы.

Копия неверна

Вирусы ведут довольно примитивное циклическое существование. Они проникают в клетку, производят своеобразный хакинг ее механизмов размножения, создавая копировальную машину для себе подобных. Реплики вируса распространяются по организму с той же целью: захватить и подчинить. И так до бесконечности.

Довольно часто в череде этого копипаста что-то идет не так — сбои при копировании порождают мутации. Иногда мутация касается отсутствия какого-то важного белка или аминокислоты — такой незадачливый вирус отправляется на свалку эволюционной истории. Порой мутация ровным счетом ни на что не влияет: при перестановке слагаемых в последовательности белков — сумма не меняется.

Но время от времени мутация работает вирусу на руку. Произошедшие изменения не только не мешают вирусу продолжать захват здоровых клеток, но и помогают ему делать это с большей эффективностью. Мутации могут сделать вирус неузнаваемым для иммунной защиты человека. Такому захватчику удается уклоняться от антител, выработанных у переболевших или вакцинировавшихся людей, или «ускользнуть».

Ученые всегда внимательно следят за потенциальными попытками «побега» со стороны вируса. Это актуально и для SARS-CoV-2: появляются новые штаммы и ученые исследуют, насколько эти изменения критичны для существующей вакцины (P.S. Пока тут все в порядке). Сложнее всего приходится исследователям вируса гриппа и ВИЧ, которые лучше всего «ускользают» от иммунной защиты нашего организма.

Вирусологи стараются играть на опережение, поэтому создают собственных мутантов в лабораторных условиях и смотрят, смогут ли те ускользнуть от антител, взятых у экс-больных и вакцинировшихся. Но работа эта сродни поиску иголки в стоге сена: вариации мутаций настолько разнообразны, что проверить все не представляется возможным. Такие исследования проводятся скорее для того, чтобы не терять относительный контроль над ситуацией.

Вирусное правописание

Прошлой зимой Брайан Хи, биоинформатик из Массачусетского технологического института и большой поклонник поэзии Джона Донна, обдумывал эту проблему и пришел к интересной аналогии. Что если рассматривать вирусные последовательности так же, как мы рассматриваем письменную речь? По мнению ученого, каждая вирусная последовательность имеет своего рода грамматику — набор правил, которым она должна следовать, чтобы быть этим конкретным вирусом.

Если мутация провоцирует «грамматическую ошибку», вирус заходит в эволюционный тупик. Так же, как и язык, вирусная последовательность имеет своего рода семантику, которую иммунная система либо в состоянии считать, либо нет. Если она ее считывает, то иммунитет в состоянии понять вирус и остановить его с помощью антител или иных средств защиты. Продолжая аналогию, вирусное «ускользание» можно рассматривать как изменение, которое следует правилам грамматики, но меняет свою семантику на ту, которую не считывает иммунитет.

Аналогия была не только красивой, но и натолкнула Брайана Хи на мысль о ее практическом применении. За последние несколько лет искусственный интеллект сильно продвинулся в области лингвистики, корректно моделируя принципы грамматики и семантики человеческого языка. Нейросети обучаются на наборах данных, состоящих из миллиардов слов и упорядоченных по предложениям и абзацам, из которых система выводит шаблоны. В результате обучения алгоритмы ИИ «понимают», как правильно строить предложения и где расставлять запятые. Можно также сказать, что он «понимает» значение определенных последовательностей слов и фраз и даже учитывает контекст — все это на основе правильно подобранных коэффициентов слоев нейросети.

Архитектура паттернов выбора того или иного слова — масштабная, и прописывается она все более детально. Так, наиболее продвинутые алгоритмы обработки естественного языка типа GPT-3 от OpenAI учатся создавать идеальные с точки зрения грамматики тексты, сохраняя стилистику.

И в литературе, и в биологии

Основное преимущество алгоритмов искусственного интеллекта — их масштабируемость на разные области науки. Для модели машинного обучения последовательность — это последовательность, неважно, где она — в лирических сонетах или аминокислотах.

По мнению Джереми Ховарда, исследователя искусственного интеллекта из Университета Сан-Франциско и эксперта по алгоритмам обработки естественного языка, применение алгоритмов ИИ в биологических исследованиях может быть результативным.

Имея достаточное количество данных, например, из генетических последовательностей известных науке инфекционных вирусов, модель может обнаружить паттерны и закономерности в их структуре.

«Это будет крайне сложная модель», — говорит Джереми Ховард. Брайан Хи тоже это знал. Его научный руководитель, математик и программист Бонни Бергер, ранее выполняла аналогичную работу с коллегами по лаборатории, используя ИИ для прогнозирования закономерностей сворачивания белков.

Языковые модели для гриппа, ВИЧ и коронавируса

Этой весной лаборатория Бергер воплотила идею Брайана Хи. Результаты исследования опубликованы в журнале Science. Изначально команда интересовалась вирусом гриппа и ВИЧ, которые печально известны мастерским «ускользанием» от вакцин. Но, когда они начали исследование в марте 2020 года, стал доступен геном нового коронавируса, поэтому они решили добавить к исследованию и его.

Для всех трех вирусов ученые сосредоточились на последовательностях белков, которые они используют для проникновения в клетки и репликации, объясняет Брайан Брайсон, биоинженер, профессор Массачусетского технологического института и соавтор исследования. Эти же последовательности — главная мишень для возникновения иммунного ответа и ключ к созданию эффективной вакцины. Здесь антитела цепляются за вирус, предотвращая его проникновение в клетку и приговаривая к уничтожению (для SARS-CoV-2 это спайковый S-белок.) Для каждого вируса команда МIT обучила языковую модель, используя данные генетической последовательности вместо привычных абзацев и предложений.

Спустя время ученые проверили результат обучения модели. Согласно гипотезе ученых, последовательности, которые имеют схожую семантику, должны инфицировать одних и тех же «хозяев». Так, генетический «язык» свиного гриппа должен быть семантически похож на другой свиной грипп и отличаться от другого подвида гриппа, например, птичьего. Гипотеза ученых подтвердилась. Кроме того, они обнаружили, что распределенные во времени штаммы гриппа (к примеру, птичий грипп 1918 и 2009 года), были оценены ИИ как семантически похожие.

Затем они обратились к грамматике. Насколько коррелирует оценка вируса за «грамматику» последовательности и его жизнеспособность в реальной жизни? Ученые собрали данные прошлых исследований, оценивающих адаптивность мутировавших вирусов (насколько хорошо они атаковали клетки и реплицировались) для всех трех вирусов. Затем они оценили, насколько грамматически верными были эти последовательности, по мнению модели. Исследователи предполагали, что высокая оценка по этому параметру означала высокую адаптивность вируса.

Брайсон и Хи также хотели узнать, может ли ИИ предсказать появление «ускользающего» вируса. Тогда они сравнили предсказания своей модели с известными случаями фактического «побега» вируса. Модель вируса гриппа оказалась наиболее предсказательной. Неудивительно, ведь набор данных, который они использовали для обучения этой модели, был наиболее полным — включал накопленные за несколько лет последовательности гриппа, в том числе выживших мутаций.

Что касается SARS-CoV-2, ученые проверяли свои гипотезы на искусственно выведенных мутантах. Существующий вирус многократно пропускали через сыворотку с антителами до тех пор, пока вирус не мутировал до толерантной к ним стадии (нам пока реально не о чем беспокоиться). Процент успеха тут был меньше. Модель выделяла большинство истинных «беглецов», но иногда ошибалась.

Это только начало

Тем не менее, полученные результаты — хороший задел для дальнейших исследований вирусологов, которые хотят понять, как работает механизм естественной мутации. «Это отличный способ сузить круг потенциальных вирусов-мутантов, сравнимый с размерами вселенной», — комментирует Бенхур Ли, микробиолог из Медицинской школы Икана на горе Синай.

Ученый добавил, что прогнозы хороши настолько, насколько хороши данные, на которых обучается модель. Также следует иметь в виду, что модель ИИ упускает некоторые нюансы, потому что свойство ускользания далеко не всегда является следствием мутации. ВИЧ — тому доказательство. Иногда последовательность этого вируса не меняется, и его белки даже распознаются антителами, но они хорошо защищены полисахаридом, называемым гликаном.

Бенхур Ли отметил, что в первую очередь предсказания ИИ помогают исследователям подтверждать уже существующие знания. Так, модель правильно идентифицировала две части спайкового белка SARS-CoV-2, которые, как было выяснено ранее, более подвержены к мутациям, и участок последовательности вируса, который стабилен, а значит, является хорошей мишенью для антител.

К каким еще открытиям приведут прогнозы модели ИИ, покажет время. Пока ученые возлагают на нее особые надежды в части выявления так называемых комбинативных мутаций, которые включают в себя множество изменений, наложенных друг на друга.

Следующий шаг, который совершат сотрудники Брайсона, будет состоять в создании в лаборатории некоторых из прогнозируемых мутантов SARS-CoV-2 и наблюдение за их откликом на антитела, взятые у переболевших и вакцинированных людей. По словам Брайсона, они также протестируют несколько последовательностей, собранных при попытках секвенирования образцов вируса от пациентов с Covid-19, которые, по мнению модели, более склонны к «ускользанию».

Ученые также хотят проверить, применима ли их аналогия в других ситуациях. Может ли аналогичная модель предсказать, станет ли иммунная система нетерпимой к определенному лечению онкологии или могут ли раковые клетки мутировать и перестать отзываться на лечение? Получив достаточное количество данных, сотрудники лаборатории Брайсона хотят проверить и это.