Как ИИ дешифрует геномы всех известных организмов

В далёком 2015 году, будучи преподавателем университета, я вел факультатив «Психология трансгуманизма». На первом занятии я упоминал секвенирование генома человека: первая такая процедура обошлась в три миллиарда долларов и заняла тринадцать лет. К 2015 году стоимость анализа снизилась до 1–3 тысяч долларов, а сам процесс укоротился до недели. Сегодня искусственный интеллект автоматизирует всю цепочку, снижая расходы, сокращая сроки и расширяя объём получаемых данных.

Как ИИ дешифрует геномы всех известных организмов

Секвенирование генома и искусственный интеллект

Нейросети открывают возможность воплотить в жизнь амбициозный план по секвенированию геномов 1,85 миллиона эукариот на нашей планете. Такой масштабный проект существенно расширит наши знания о биологии и станет фундаментом для восстановления биоразнообразия.

Искусственный интеллект выступает мощным катализатором: он регистрирует и каталогизирует ДНК-последовательности, осуществляет многократные верификации и исправления, сохраняет неизменную точность при работе с миллиардами строительных блоков жизни.

Проект «Earth BioGenome Project» (EBP) — это международная инициатива по созданию геномного каталога всех современных видов за десять лет. Запущенный в 2018 году, проект оценивают примерно в пять миллиардов долларов и включают более 60 отдельных исследований. На сегодняшний день в рамках EBP получены данные по 4 386 видам: млекопитающим, рыбам, птицам, рептилиям, насекомым и растениям.

Главная цель — сохранить генетический материал вымирающих видов. Ведь после их исчезновения навсегда утрачивается ключ к пониманию их прошлого и эволюционных путей.

Насколько критично вымирание?

График скорости исчезновения видов

Внезапно я задумался: «Сколько же видов на самом деле исчезает ежедневно?» Проверил через Алису в Поиске — и был ошеломлён. Оказалось, что биоразнообразие планеты теряет примерно три вида в час. Для таких «почему?»-вопросов я и обращаюсь к нейросетям: они не только оперативно дают ответ, но и помогают отследить первоисточники. На сайте Iguides приводят данные PLOS, где говорится о естественной норме в один исчезнувший вид на миллион в год, но текущие темпы — три вида в час.

Возможно, прежние оценки были занижены, или мы одновременно улучшили методики наблюдений и расширили зону исследования. Большая часть исчезнувших видов остаётся незамеченной, но около 18 000 животных уже находятся на грани исчезновения. Мы можем, по крайней мере, сохранить их генофонд в виде генетических «отпечатков».

Скорость обработки данных и нейросетевые инструменты

Из 1,85 миллиона известных эукариот секвенировано лишь 4 386 — это кажется скромным результатом. Однако методы анализа, агрегации и структурирования геномных данных сделали качественный скачок благодаря автоматизации, что обещает значительное ускорение работ.

В этой области ведущую роль играет Google: его исследовательское подразделение разработало ряд AI-инструментов, ускоряющих различные этапы секвенирования.

DeepVariant

DeepVariant, представленная в 2018 году, восстанавливает полную последовательность человеческого генома на основе данных высокопроизводительного секвенирования (HTS). Хотя HTS уже десятилетия производят миллиарды коротких «ридов», задача точной сборки этих фрагментов в единый геном остаётся непростой.

DeepVariant подходит к задаче как к распознаванию образов: глубинная нейросеть анализирует «изображение» выровненных ридов и определяет, где наблюдается настоящий вариант, а где — артефакт прибора HTS. Это даёт одновременно высокую скорость и точность.

DeepPolisher

В этом году Google Research представила DeepPolisher — инструмент для «шлифовки» геномных сборок. Он уменьшает число ошибок на 50% и предотвращает пропуск патогенных вариантов при аннотировании, что упрощает идентификацию ключевых генов.

По словам разработчиков, такие решения помогают биологам выявлять пути предотвращения заболеваний у диких животных и поддерживать популяции исчезающих видов посредством деликатных генетических вмешательств.

Результаты первых проектов

После упорядочивания геномных данных специалисты по охране природы могут выявить регионы с максимальным генетическим разнообразием — это ключ к борьбе с инбридингом, который приводит к снижению плодовитости и ослаблению иммунитета. Далее животные переводятся в новые участки обитания, что способствует их успешному размножению.

Командам EBP предстоит кропотливая работа: к 2028 году каталогизировать почти все современные виды. Но автоматизация и искусственный интеллект значительно облегчают эту задачу — пример с человеческим геномом служит тому наглядным доказательством.

Больше материалов о симбиозе технологий и природы ищите в сообществе Neural Hack в Telegram. У нас нет «бога из машины», но его силу уже можно ощутить.

 

Источник

Читайте также