Портрет Розалинды Франклин с секретом висит на стене Центра компьютерных наук и инженерии имени Билла и Мелинды Гейтс в Университете Вашингтона в Сиэтле, США.
Портрету пять лет, и он представляет собой нарисованную чёрной акриловой тушью картину Франклин поверх коллажа из почти 2000 фотографий. Все эти изображения — снимки драгоценных воспоминаний, присланные публикой Луису Сезе, профессору компьютерных наук и инженерии. Но настоящий сюрприз кроется в средстве, использованном для создания картины Франклина. Акриловые чернила содержат синтетическую ДНК, в которой закодирована вся цифровая информация, необходимая для воспроизведения каждой фотографии в коллаже. Фотографии были закодированы в ДНК, которая затем была нанесена в составе чернил для создания портрета Розалинд Франклин, одного из пионеров в области исследований ДНК», — говорит Карин Штраус, старший менеджер по исследованиям в Microsoft Research в Вашингтоне, США.
Идея хранить цифровую информацию в виде аденинов (As), тиминов (Ts), цитозинов (Cs) и гуанинов (Gs) в синтетической ДНК витает в воздухе уже несколько десятилетий. Это более компактная и долговечная альтернатива двоичному коду (строкам из нулей и единиц), используемому в традиционных вычислениях. За последние полтора десятка лет появился целый шквал примеров хранения данных в ДНК. Среди других демонстрационных проектов — хранение 154 сонетов Шекспира, части аудиофайла с речью Мартина Лютера Кинга «У меня есть мечта» 1963 года и первого эпизода сериала Netflix «Биохакеры».
«Мысль о хранении цифровых данных в ДНК не является принципиально новой концепцией, но она становится всё более жизнеспособной», — говорит Сезе. Важным шагом вперёд стало создание в 2020 году Альянса по хранению данных в ДНК. Это крупное промышленное и научное сотрудничество позволяет создать взаимодействующую экосистему хранения данных, в которой технологии для каждого этапа хранения и сбора данных будут совместимы. Это позволит избежать повторения войны форматов видеокассет, в которой в конце 1970-х и 1980-х годов столкнулись несовместимые системы Betamax и VHS.
Решение проблемы данных
Логистика хранения и поиска данных ДНК в разных демонстрационных проектах различна, но основные этапы одинаковы. Сначала данные кодируются в виде схемы нуклеотидных оснований, так же как в настоящее время они кодируются в виде нулей и единиц. Затем в лаборатории синтезируется несколько копий нитей ДНК с такой схемой оснований. Затем ДНК хранится в течение определённого времени. Чтобы извлечь информацию, шаблон оснований в ДНК считывается с помощью технологий секвенирования (которые изначально были разработаны для геномных и медицинских исследований). ДНК можно восстановить, например, с портрета Франклина, написанного Сезе, соскоблив немного краски.
Хранение информации в ДНК имеет множество преимуществ по сравнению с существующими методами, и самое главное из них — долговечность. Информация, сохранённая нашими предками, позволяет нам заглянуть в их мир. До сих пор можно увидеть наскальные рисунки доисторических времён, рассмотреть иероглифы, высеченные на скалах, и прочитать книги XI века. Современные носители информации, напротив, не рассчитаны на длительный срок службы. Материалы довольно быстро разрушаются, а технология воспроизведения быстро устаревает, что затрудняет извлечение данных более чем десятилетней давности. Многие ли из пользователей всё ещё имеют возможность получить доступ к данным, хранящимся на виниловых пластинках, кассетах, видеокассетах, дискетах или zip-дисках? В большинстве новых ноутбуков уже нет даже CD- или DVD-привода. Музеи и компании, занимающиеся хранением больших объёмов данных, понимают, что существует проблема, связанная с тем, что мы не знаем, как хранить данные в течение длительного времени, — говорит Роберт Грасс, профессор функциональных материалов в ETH Zurich в Швейцарии.
ДНК — это то, что природа использовала для хранения информации, необходимой всем живым организмам для роста, размножения и функционирования. При правильном хранении она сохраняется в течение многих тысяч лет. За последние несколько лет учёные считывали ДНК с зубов мамонтов, возраст которых составляет один миллион лет, а в ДНК окружающей среды двухмиллионной давности нашли свидетельства существования крабов-подков и мастодонтов. ДНК хранится очень, очень долго, особенно если она хранится без кислорода, воды и в темноте, — говорит Эмили Лепруст, исполнительный директор компании Twist Bioscience в Сан-Франциско, США.
Также очень вероятно, что будущие поколения сохранят способность читать ДНК. ДНК настолько важна для здоровья человека, что вы всегда будете иметь возможность читать ДНК. Возможно, через 100 лет мы уже не будем использовать Illumina или PacBio, это будут другие технологии секвенирования, но мы всегда сможем её прочесть», — говорит Лепруст.
Кроме того, существует проблема плотности размещения и энергопотребления. Данные, хранящиеся «в облаке», на самом деле находятся в огромных центрах обработки данных, разбросанных по всему миру. Например, площадь центров обработки данных в Кардиффе (Cardiff Data Center Campus) составляет около 140 000 м2, а потребление энергии — 270 МВт, что достаточно для обеспечения жизнедеятельности небольшого города. В отличие от этого, «ДНК очень плотная, — говорит Лепруст, — вы можете разместить десятки центров обработки данных на площади размером с кубик сахара». Для её хранения не требуется энергия, а в запечатанном контейнере она будет храниться тысячи лет, при условии, что её высушат и будут держать в достаточно прохладном месте.
Капсула времени
Прежде чем хранение данных ДНК станет массовым, необходимо преодолеть два основных препятствия: снизить стоимость синтеза и секвенирования ДНК и повысить скорость. В настоящее время прилагаются значительные усилия для достижения этих целей. Однако маловероятно, что хранение данных в ДНК будет достаточно дешёвым и быстрым, чтобы полностью заменить электронные хранилища данных. Вместо этого ожидается, что они заполнят нишевые пробелы на рынке для таких целей, как архивирование данных, которые необходимо хранить в течение длительного периода времени без необходимости частого считывания. К этой категории относятся культурно значимые данные, юридические документы и важная правительственная информация. «Я общался с Национальным архивом Великобритании и Британской библиотекой», — говорит Томас Хейнис, читатель в области вычислительной техники в Имперском колледже Лондона, Великобритания.
Химия фосфорамидитов — основной подход, используемый сегодня для синтеза ДНК в лабораторных условиях. Синтетическая ДНК сшивается по одному нуклеотиду за раз путём образования ковалентных связей между 3′-фосфитно-эфирными группами и 5′-гидроксильными группами на соседних сахарных единицах дезоксирибозы. Поскольку нуклеотиды добавляются по одному и каждое добавление требует этапов защиты и депротекции, создание синтетической ДНК — трудоёмкий и дорогостоящий процесс.
Миниатюризация синтеза ДНК — один из способов снизить затраты. Обычно ДНК производится в 96-луночных планшетах, в каждой лунке находится по одному фрагменту ДНК. Компания Twist Bioscience разработала платформу на основе струйного принтера, которая позволяет одновременно создавать 1 миллион фрагментов ДНК. В ней используются кремниевые чипы (по типу тех, что применяются в полупроводниковой промышленности), на которые нанесены микрошаблоны с крошечными лунками, в которых происходит химический процесс. По словам Лепруста, эта платформа «использует на 99,8% меньше химикатов» для каждого созданного фрагмента ДНК. «Поскольку мы используем меньше регентов, это дешевле», — добавляет она. Технология Twist Bioscience уже используется для создания синтетических нитей ДНК на заказ для разработки вакцин, лекарств, диагностики и других биотехнологических приложений. По словам Лепруст, ранний доступ к её услугам по хранению данных ДНК запланирован на 2025 год.
Будущее, полное ошибок
Ещё один подход, используемый для снижения стоимости синтеза (а также для ускорения секвенирования), — использование кодов, исправляющих ошибки. Эти дополнительные фрагменты ДНК исправляют любые ошибки, чтобы информацию можно было прочесть. Строки данных в электронных хранилищах также содержат избыточный код, который может быть использован для исправления ошибок, если что-то пойдёт не так. Возможность исправлять ошибки в данных, считываемых в конце процесса, открывает возможности для использования менее точных, но более дешёвых и быстрых инструментов синтеза и секвенирования. «Мы можем сделать что-то на уровне кодирования, в самой информации ДНК, чтобы справиться с ошибками», — объясняет Джефф Нивала, доцент кафедры компьютерных наук и инженерии Вашингтонского университета. «Тогда я смогу сделать что-нибудь с очень высоким уровнем ошибок в моём устройстве [синтеза или] секвенирования, поскольку мне будет легко их исправить». Коды коррекции ошибок также могут справиться с ошибками, возникающими во время хранения. Например, компакт-диски с лёгкими царапинами на поверхности всё ещё можно воспроизвести благодаря кодам коррекции ошибок.
Среди методов синтеза ДНК с меньшей точностью, которые сейчас изучаются для хранения данных, — массовый параллельный светонаправленный синтез с добавлением кодов коррекции ошибок. Грасс и его соавторы, включая Марка Сомозу, профессора химии Венского университета (Австрия), являются пионерами в этом подходе. «Мы можем синтезировать около 2 миллионов последовательностей параллельно», — объясняет Сомоза. Процесс удаляет защитные группы на 5′-гидроксиле с помощью ультрафиолетового света в проточной системе, в которую циклически добавляются необходимые реагенты для каждого этапа. «Обычно на участке 5′ находится защитная группа кислотной метки, и мы заменили её фотомеченой группой», — говорит Сомоза. Во время депротекции используется массив микрозеркал для точного направления ультрафиолетового света на поверхность ДНК. Остальная химия очень похожа на традиционные методы синтеза ДНК. Светонаправленный синтез значительно дешевле и быстрее, чем обычный синтез ДНК. Используя этот подход, команда продемонстрировала безупречное восстановление данных из файла, содержащего ноты Моцарта.
ИИ на помощь
Ольгица Миленкович, профессор обработки данных в Иллинойском университете в Урбане-Шампейне (США), изучает другой подход к работе с ошибками: искусственный интеллект (ИИ). «Синтетическая ДНК настолько дорога, что использование кодирования для исправления ошибок может привести к большим накладным расходам», — объясняет она. «Мы используем набор [уже разработанных] методов машинного обучения и искусственного интеллекта, чтобы заставить изображения, закодированные в ДНК, выглядеть лучше при наличии ошибок, а не пытаться их исправить». Такой подход не подходит для данных, требующих высокой точности, но он хорошо работает с изображениями, где уже существуют инструменты искусственного интеллекта для «исправления» повреждений на старых фотографиях так, что они больше не видны невооружённым глазом.
Миленкович также разработал другой подход к записи информации, хранящейся в ДНК, двумя способами. Информация об изображении помещается в нуклеотидные паттерны синтетической ДНК с помощью традиционных методов синтеза ДНК. Затем в основу ДНК добавляется информация об авторских правах и водяные знаки в виде узоров. Они представляют собой двоичный код и создаются ферментами, делающими зарубки. «Если у вас есть зарубка, значит, это единица, если зарубки нет, значит, это ноль», — объясняет Миленкович. Использование двух слоёв кодирования позволяет хранить больше информации в одном и том же пространстве. Миленкович и её группа использовали свой подход для хранения и воспроизведения восьми кинокадров Марлона Брандо.
Энзимный синтез также изучается для создания синтетической ДНК. Эта технология менее развита, чем фосфорамидитная химия, но потенциально может стать более быстрой и дешёвой альтернативой, не требующей токсичных химикатов. «Фосфорамидитная химия очень грязная, очень токсичная, очень сложная и дорогая», — говорит Сезе. «Нам нужно по-настоящему сосредоточиться на ферментативном синтезе, чтобы сделать его контролируемым и высокопроизводительным». Компания Kern Systems, которая вышла из лаборатории Джорджа Чёрча в Гарварде, и французская компания DNA Script — одни из тех, кто продвигает ферментативный синтез ДНК для хранения данных.
Скоростное чтение
Методы секвенирования с помощью синтеза, такие как секвенсорные платформы Illumina, являются в настоящее время золотым стандартом для считывания данных, хранящихся в ДНК. Нанопоровое секвенирование набирает обороты благодаря способности секвенировать отдельные молекулы ДНК без необходимости амплификации. Эти устройства используют молекулярные двигатели для проталкивания нитей ДНК через поры в полимерной мембране, содержащей детектор. Ионы в окружающем растворе проходят через поры, создавая электрический ток, и по мере прохождения каждого основания через поры создаётся различное (измеряемое) искажение этого тока. «Эта технология — действительно отличный способ [добиться] высокоточного секвенирования», — объясняет Нивала.
Ни секвенирование путём синтеза, ни современные устройства для нанопорового секвенирования не являются достаточно быстрыми для применения в системах хранения данных ДНК. Например, максимальная скорость коммерческих устройств Oxford Nanopore составляет 400 оснований в секунду. Работы по созданию более быстрых и дешёвых нанопоровых секвенаторов ведутся в академических и коммерческих лабораториях по всему миру. «Если мы сможем отказаться от этих молекулярных двигателей и использовать электрофоретическую энергию или энергию напряжения в самом устройстве, вы сможете проталкивать нити ДНК через нанопоры на порядки быстрее», — добавляет Нивала. Снижение точности секвенирования также позволит снизить цену за гигабайт получаемых данных. Для сравнения, одноразовые капсулы Oxford Nanopore размером с донгл (Flongle) стоят 90 долларов каждая и позволяют секвенировать до 2,6 Гб данных за 16 часов. Это примерно столько данных, сколько нужно для хранения такого фильма, как «Звёздные войны: Последние джедаи», в стандартном разрешении.
Автоматизация всего процесса хранения данных — ещё одно направление. Технологии синтеза и секвенирования уже в основном автоматизированы, но промежуточные этапы по-прежнему выполняются вручную. Когда мы проводим эксперимент по хранению данных ДНК, по лаборатории перемещается множество аспирантов, которые пипетируют материал, — объясняет Грасс.
Для того чтобы хранение данных ДНК стало мейнстримом и могло применяться не только для архивных данных, к которым редко обращаются, необходимо полностью автоматизировать цикл записи-хранения-чтения, пишут Штраус и Цезе в статье, опубликованной в 2019 году и описывающей автоматизированный сквозной пример хранения данных ДНК. Их настольная установка сначала преобразует данные (с дополнительным кодом коррекции ошибок) из нулей и единиц в As, Ts, Cs и Gs. Затем эти основания по порядку подаются на колонку, где их сшивают вместе с помощью фосфорамидита. После того как нити готовы, их смывают с твёрдых опор колонки и помещают в бутылку для хранения. Чтобы получить данные, жидкость закачивается в устройство MinION компании Oxford Nanopore, где ДНК секвенируется. Наконец, этот код из As, Ts, Cs и Gs декодируется обратно в нули и единицы. В своей первой демонстрации учёные отправили слово «привет» за 21 час. «Хотя мы и продемонстрировали, что можно полностью автоматизировать сквозную систему хранения данных ДНК при небольших затратах, эта система не отличалась высокой пропускной способностью», — говорит Штраус. В настоящее время ведётся работа по расширению и ускорению этого автоматизированного подхода.
Безусловно, ещё многое предстоит сделать, прежде чем хранение данных в ДНК станет мейнстримом. Те, кто работает в этой области, считают, что это лишь вопрос времени, когда на смену массивным энергозатратным центрам обработки данных придут крошечные капсулы с ДНК, к которым через тысячи лет смогут получить доступ наши предки. В связи с этим возникает вопрос: какое послание вы бы хотели оставить тем, кто пойдёт по вашим стопам?