Российские ученые разработали нейросеть для построения генных карт по ДНК-последовательностям

Отечественная разработка — нейросетевой алгоритм GENATATOR — автоматизирует процесс разметки генетических последовательностей, что может совершить прорыв в создании детальных карт ДНК для неизученных организмов. Специалисты из института AIRI спроектировали модель, которая самостоятельно анализирует структуру ДНК, распознает границы генов, их разновидности и внутреннее устройство. Эта задача считается крайне трудоемкой из-за отсутствия универсальных сигнальных меток, указывающих на начало или окончание гена.

Российские ученые разработали нейросеть для построения генных карт по ДНК-последовательностям
Изображение сгенерировано нейросетью ChatGPT
Российские ученые разработали нейросеть для построения генных карт по ДНК-последовательностям
Изображение сгенерировано нейросетью ChatGPT

В противовес традиционным подходам, опирающимся на строго заданные алгоритмические правила, данная система базируется на глубоком обучении на обширных массивах геномных данных. Это позволяет ИИ эффективно распознавать как классические белок-кодирующие фрагменты, так и сложно поддающиеся идентификации гены длинных некодирующих РНК. Процесс обработки данных выстроен иерархично: модель последовательно предсказывает границы участков, проводит их верификацию, выполняет классификацию и детальную реконструкцию внутренней архитектуры, проводя четкую грань между интронами и экзонами.

Технология особенно актуальна для «немодельных» видов, для большинства которых сегодня доступны лишь черновые сборки геномов без какой-либо разметки. В ходе тестирования GENATATOR, прошедшая обучение на материалах человека и 38 видов млекопитающих, продемонстрировала высокую точность при переносе полученных закономерностей на биологически отдаленные объекты, включая дрожжи, растения и плодовую мушку. Более того, системе удалось выявить специфические «токсичные» экзоны, которые при включении в состав РНК провоцируют ее последующее разрушение.

Эксперты AIRI подчеркивают: малейшая погрешность в определении границ — даже в один нуклеотид — чревата сдвигом рамки считывания, что неизбежно ведет к неверной интерпретации структуры синтезируемого белка. Для мониторинга эффективности подобных инструментов был запущен публичный лидерборд, где GENATATOR показывает передовые результаты по ключевым метрикам. С самой моделью можно ознакомиться на платформе Hugging Face.

 

Источник: iXBT

Читайте также