Британская компания Basecamp Research анонсировала запуск Trillion Gene Atlas — амбициозной научной инициативы, претендующей на звание крупнейшего проекта в истории биологии. Целью масштабного предприятия является сбор и глубокий анализ генетического кода более 100 миллионов ранее не исследованных видов, что позволит в сто раз увеличить объем доступных человечеству биологических знаний.
Реализация проекта проходит при поддержке технологических гигантов: партнёрами выступили Anthropic, разработчики систем секвенирования Ultima Genomics и PacBio, а также компания Nvidia, предоставившая вычислительные мощности. Эксперты прогнозируют, что симбиоз передовых методов расшифровки ДНК и алгоритмов искусственного интеллекта позволит сжать объем работы, ранее требовавший 20 лет, в двухлетний цикл.
Фундаментальная цель проекта — создание беспрецедентного по качеству и охвату массива данных для обучения биологических ИИ-моделей. Сегодняшние системы ограничены рамками общедоступных баз, содержащих узкий спектр генетических последовательностей. В Basecamp Research убеждены, что именно дефицит разнообразия данных стал основным барьером для прорыва в области биологического искусственного интеллекта.
Компания уже продемонстрировала потенциал подхода, представив серию моделей EDEN, обученных на собственной базе BaseData. Этот массив включает свыше 10 миллиардов ранее неизвестных генов, полученных от миллиона новых видов. Полученные результаты выявили закономерность: с ростом биологического многообразия в обучающей выборке эффективность и предсказательная мощность ИИ возрастают экспоненциально.
Разработчики отмечают, что EDEN стала первой моделью, способной проектировать перспективные лекарственные молекулы на основе текстового описания патологии. В ходе лабораторных тестов система показала высокую эффективность в работе с человеческими Т-клетками, не опираясь на предварительные клинические данные. Также сообщается о создании высокоэффективных антимикробных пептидов с точностью воздействия на патогены до 97% и разработке инновационной методики направленного внедрения генов (aiPGI).

Масштабирование данных станет ключевым фактором успеха. За последние шесть лет Basecamp Research создала международную сеть партнёрств в 31 стране, охватив труднодоступные регионы. Сейчас компания расширяет географию исследований, включая новые площадки в Чили, Аргентине и наращивая присутствие в Антарктиде.
Технический костяк проекта составляют платформы секвенирования последнего поколения: Ultima Genomics обеспечивает высокопроизводительное чтение, а технология PacBio позволяет получать протяженные и высокоточные фрагменты ДНК, сохраняя их биологическую целостность. Для обработки полученных данных задействуются специализированные биоинформатические программные комплексы.
Компания Anthropic планирует внедрить результаты Trillion Gene Atlas в своего ИИ-ассистента Claude. Ожидается, что интеграция столь внушительного биологического корпуса данных позволит Claude стать полноценным помощником исследователей, способным не только интерпретировать сложные результаты экспериментов, но и самостоятельно моделировать процессы для ускорения разработки медикаментов.
Масштаб Trillion Gene Atlas сопоставим с историческим проектом «Геном человека». Однако, если в начале столетия усилия были сосредоточены на расшифровке кода одного вида, сегодня задача заключается в создании глобальной генетической «библиотеки» жизни на Земле. Это должно стать переломным моментом, переводящим поиск лекарств из плоскости случайных лабораторных проб в сферу систематического и точного проектирования препаратов с помощью ИИ.
Источник: iXBT


