ДНК-хранилище данных: живая цифровая камера

ДНК-хранилище данных: живая цифровая камера

Что современный человек производит в большом количестве? Защитники экологии ответят — отходов, исследователи демографии скажут — самих себя, а знатоки цифрового мира — данных. По приблизительной оценке к 2025 году объемы цифровых данных во всем мире превысят отметку в 175 зетабайт. Вполне ожидаемый вопрос заключается в том, где хранить все эти данные? Кто-то предлагает использовать воду, кто-то продолжает работать над совершенствованием имеющихся носителей, но самым интригующим вариантом являются биологические системы, а именно ДНК. Разработки в области хранения данных на ДНК сопряжены с рядом проблем, корень которых лежит в дороговизне и сложности производства нитей ДНК вне клетки. Ученые из Национального университета Сингапура предлагают решение проблем в виде нового ДНК-хранилища, названного BacCam, где задействованы живые клетки. Из чего сделано BacCam, как оно работает, и что делает его лучше других ДНК-хранилищ? Ответы на эти вопросы мы найдем в докладе ученых.

Основа исследования

У любой структуры есть основа, фундамент, если хотите. У биологических систем, т. е. любых живых организмов, этой основой является ДНК, которая служит хранилищем генетической информации, кодирующей множество белков, выполняющих различные функции жизнедеятельности.

Учитывая способность действовать как хранилище информации, а также простой повторяющийся код из 4 нуклеотидов (ATCG*), ДНК ожидаемо стала лидером в списке потенциальных основ для хранения цифровых данных.

ATCG* — аббревиатура, обозначающая 4 типа оснований, встречающихся в молекуле ДНК: A — adenine (аденин); C — cytosine (цитозин); G — guanine (гуанин); T — thymine (тимин).

К другим отличительным чертам ДНК относятся ее чрезвычайная плотность (петабайты на грамм) и долговечность (ДНК была извлечена из образцов возрастом в миллионы лет).

Учитывая эти свойства, а также неумолимо надвигающийся кризис нехватки кремнезема, необходимого для разработки «классических» хранилищ данных, появилось множество разработок в сфере конвертации цифровых данных в ДНК и ДНК в данные.

Текущие работы с ДНК-хранилищами в значительной степени основаны на синтезе нитей ДНК in vitro (буквально «в стекле», т. е. вне биологической системы), который является дорогостоящим и требует сложного оборудования. Ошибки в процессе синтеза также распространены. Значительные успехи в ускорении этого процесса путем разработки методов ферментативного синтеза, миниатюризации электрохимического синтеза или разработки более надежных методов кодирования все же были, но синтез ДНК остается «узким местом» в полноценном использовании ДНК в качестве носителя данных. Таким образом, существует значительный интерес к разработке способов кодирования информации в ДНК, которые могут либо заменить, либо обойти синтез ДНК в его нынешней форме.

В рассматриваемом нами сегодня труде ученые описывают новый метод, который позволяет напрямую захватывать как пространственную информацию, так и входные сигналы через свет в саму ДНК в качестве средства для хранения цифровой информации. Ученые использовали рекомбиназную систему, которая реагирует на присутствие или отсутствие синего света в качестве внешнего сигнала, а затем записывает этот ответ в саму ДНК посредством ее редактирования в конкретном месте.

Чтобы обеспечить кодирование пространственной информации вместе с записанным сигналом, ученые внедрили схему штрихового кодирования, позволяющую дифференцировать отдельные лунки, содержащие клетки с записями воздействия света, тем самым «оцифровывая» записанное изображение и позволяя выполнять деконволюцию после извлечения последовательностей ДНК с помощью секвенирования.

В то время как предыдущие работы продемонстрировали использование светочувствительных систем, которые могут улавливать свет и отображать этот ввод в виде соответствующего светового выхода, похожего на аналоговую камеру, демонстрируемый процесс вместо этого создает биологический аналог цифровой камеры, которую ученые назвали «BacCam».

Результаты исследования

Как отмечают ученые, свет обладает очевидными преимуществами: он дешевый, обладает массовым параллелизмом, быстротой, хорошо программируется и легко мультиплексируется, а для масштабирования или создания шаблонов возрастающей сложности требуются небольшие усилия или затраты. Поэтому свет используется в качестве механизма формирования паттерна в биологии, например, в фотолитографическом синтезе ДНК, а также в оптогенетических цепях. Учитывая это, ученые решили найти способ использовать свет как вход для кодирования информации в ДНК.

Ученые предположили, что клетки, содержащие оптогенетические цепи, которые могут регистрировать присутствие или отсутствие света в ДНК, могут восприниматься как аналог цифровой камеры, которая захватывает изображения с помощью светового воздействия и записывает указанное воздействие в цифровом формате.

Таким образом, была использована рекомбиназная система Opto-Cre-Vvd, в которой белок рекомбиназы Cre-Lox был сконструирован таким образом, чтобы он индуцировался светом путем расщепления рекомбиназы и присоединения фотодимеров, которые объединяют расщепленный белок под воздействием синего света. Рекомбиназа при активации вырезает предопределенный участок ДНК, фланкированный сайтами* LoxP, что приводит к изменению последовательности. Ученые установили, что это изменение аналогично кодированию бита.

Сайт* — коротких последовательностей ДНК.

Чтобы определить, был ли бит закодирован, после секвенирования общее количество считываний, содержащих вырезанную последовательность LoxP, сравнивали с общим числом чтений с полной последовательностью LoxP. Высокое соотношение вырезанных чтений к неисключенным будет соответствовать кодируемому битовому состоянию «1», в то время как противоположное будет соответствовать битовому состоянию «0».

Затем ученые предположили, что 96-луночный планшет с соответствующим штрих-кодом на каждой лунке, содержащий клетки с генетическими цепями Opto-Cre-Vvd и LoxP, будет аналогичен цифровой камере с датчиками изображения, каждый из которых содержит отдельные пиксели, имеющие свой собственный уникальный идентификатор, хранящий информацию, соответствующую экспозиции.

Чтобы масштабировать однобитный цифровой привод внутри каждой клетки до мультипиксельного изображения, популяцию бактерий Escherichia coli (кишечная палочка), содержащую вышеупомянутую цепь, пространственно разделяли в отдельных лунках черного 96-луночного планшета с прозрачным дном, на который снизу проецировался предопределенный паттерн света с длиной волны 465 нм.

Затем спроецированный паттерн сохранялся за счет добавления уникальных штрих-кодов олигонуклеотидов («коды лунок»), которые связываются в области, предшествующей сайту записи LoxP. Нуклеотидная последовательность кода лунки сопоставлялась с заранее определенными пространственными местоположениями, при этом указанные сопоставления сохранялись в отдельной таблице, что приводило к связыванию пространственного местоположения записывающих бактерий в каждой изолированной лунке вместе с записанным цифровым приводом, которым обладает каждая бактерия.

Добавление кода лунки к записывающей последовательности проводилось с помощью PCR (polymerase chain reaction, т. е. полимеразная цепная реакция). Затем с помощью PCR добавляли дополнительные последовательности олигонуклеотидов, чтобы подготовить отдельные образцы для секвенирования следующего поколения (NGS от next-generation sequencing).


Изображение №1

Впоследствии все образцы затем объединялись для хранения. В результате получается пул последовательностей олигонуклеотидов ДНК, в котором хранится информация о захваченном изображении (схема выше).

На практике эта система штрих-кодирования позволяет захватывать двумерные изображения, где местоположение каждого пикселя представлено кодом лунки, а битовое состояние пикселя определяется наличием или отсутствием вырезанного участка ДНК. Полученные данные можно надежно хранить в высушенном виде при комнатной температуре или заморозить в холодильнике до -20 °C.

Для извлечения изображения было проведено секвенирование объединенной ДНК. Затем сгенерированные результирующие данные секвенирования подвергали деконволюции путем определения общего количества последовательностей, извлеченных для каждого штрих-кода, и битового состояния, определяемого отношением последовательностей, в которых отсутствует область между сайтами LoxP, к последовательностям, содержащим эту область. Эти отношения показывают долю ДНК, которая была вырезана, по сравнению с той, которая была интактной.

Таким образом, высокие коэффициенты указывают на то, что была вырезана большая часть ДНК. Это означает, что воздействие света было «записано» и, таким образом, записан сигнал «1», и наоборот для более низких соотношений — сигнал «0». Пороговое значение, определяющее соотношение, которое разграничивает сигнал «1» или «0», было получено с использованием методов кластеризации, которые сравнивают отношения на каждом планшете.

Эта деконволюция была выполнена для всех используемых кодов лунок, а полученные пары бит-коды были затем повторно собраны обратно в соответствии с ранее сохраненной таблицей сопоставления кодов лунок с пространственными местоположениями для формирования оцифрованной версии проецируемого изображения.

На следующем этапе исследования ученые решили проверить возможность мультиплексирования рабочего процесса, создав несколько изображений и объединив их вместе, а также выделив каждое изображение из данных секвенирования ДНК, сгенерированных путем секвенирования указанного пула.

Ученые предположили, что каждое полное изображение также может быть закодировано своим собственным «мета-штрих-кодом», который отделяет изображения друг от друга в гетерогенном пуле ДНК из нескольких изображений, несмотря на использование тех же кодов лунок, которые разделяют отдельные лунки, что позволяет реализовать мультиплексирование.

Таким образом, ученые включили второй уровень индексации, используя штрих-коды индексации, предоставленные Illumina. Каждый 96-луночный планшет после добавления начальных кодов лунок имел те же 2 индексирующих штрих-кода, добавленные к 5′- и 3′-концу последовательности в каждой лунке. Эти штрих-коды являются комбинаторными по своей природе, что увеличивает возможное количество изображений, которые можно хранить вместе.


Изображение №2

Чтобы определить, можно ли использовать этот второй индексирующий слой для деконволюции нескольких изображений из одного и того же образца, ученые выставили 5 уникальных паттернов на 5 разных 96-луночных планшетах, тем самым создав набор из 5 изображений (2A).

Четверо из этих паттернов (NUS, SYNCTI, BacCam и Smiley) иллюстрируют способность системы захватывать изображения. Последний паттерн («Heloo wo{|d!») служит для иллюстрации способности BacCam кодировать информацию (например, буквы и символы, представленные в 8-битном кодовом формате ASCII) путем выделения каждой лунки в виде бита и кодирования информации в формате с 96 лунками. Следовательно, каждый столбец (8 лунок) будет кодировать один код ASCII. В этом случае BacCam также может служить для кодирования любой информации, если она проецируется с соответствующим паттерном.

Затем ученые добавили один и тот же набор кодов лунок к каждому из паттернов с помощью PCR, прежде чем дополнить каждое изображение индексирующими штрих-кодами. Каждое изображение использовало различную комбинацию индексирующих штрих-кодов, которые затем сохранялись в таблице сопоставления, связывающей уникальные индексные последовательности с соответствующим изображением.

Затем эти проиндексированные изображения были объединены в один и тот же пул ДНК. После этого ученые определили, что смешанный пул, состоящий как минимум из 5 различных изображений, может быть деконволюционирован и реконструирован с точностью не менее 90% для всех изображений, демонстрируя возможности мультиплексирования исследуемого метода (2B).

Впоследствии ученые проверили способность своей методики реализовать произвольный доступ к изображениям, благодаря чему каждое изображение может быть выборочно амплифицировано и декодировано без необходимости секвенировать весь смешанный пул ДНК.

Было высказано предположение, что разработки праймеров, которые избирательно связываются с индексированными последовательностями, соответствующими желаемому изображению, будет достаточно для произвольного доступа. Для подтверждения этого было показано, что все изображения (с точностью > 80%) в смешанном пуле из пяти могут быть выборочно амплифицированы и доступны с использованием соответствующих индексирующих праймеров и проведения PCR (2C), что избавляет от необходимости секвенировать весь пул ДНК.

В совокупности эти результаты показывают, что несколько изображений можно легко пометить, сохранить вместе и впоследствии демультиплексировать с помощью простого процесса индексации, который дополняет существующие рабочие процессы NGS.


Изображение №3

Чтобы определить минимальное количество ДНК, необходимое для точной реконструкции изображений, ученые провели серию экспериментов с разведением. Смешанный пул образцов постепенно разбавляли, при этом каждое разведение было в десять раз меньше, чем предыдущее. Секвенирование каждого разведения для конкретного изображения для деконволюции и реконструкции показало, что изображения были точно реконструированы при стократном разведении по сравнению с исходной концентрацией. При 1000-кратном разведении отдельные считывания для каждого штрих-кода значительно упали, при этом многие из них вообще не считывались. По этой причине точность считанного изображения значительно падала (3A).

Для крупномасштабного мультиплексирования изображений концентрация ДНК, представляющая одиночное изображение, падает по мере увеличения количества изображений в каждом пуле.

Таким образом, этот анализ дает приблизительное представление о количестве изображений, которые могут быть одновременно получены в ходе секвенирования, при условии, что был секвенирован фиксированный объем объединенной библиотеки и охват секвенирования остался прежним. Результаты подразумевают, что количество различных изображений, которые могут быть сохранены в пуле и извлечены за один прогон, составляет от 100 до 1000. Таким образом, увеличение количества отдельных изображений, которые можно получить таким методом, потребует увеличения охвата секвенирования и/или увеличения концентрации каждого изображения.

Дополнительно ученые решили проверить гипотезу о том, что PCR-амплификация разбавленных чтений (предполагаемых последовательностей пар оснований) с помощью произвольного доступа может быть достаточной для преодоления вышеупомянутого ограничения без увеличения охвата секвенированием, что позволяет сэкономить затраты, сохраняя при этом возможность мультиплексного хранения в том же пуле.

Потому было проведено несколько опытов разведения смешанного пула изображений с использованием индексирующих праймеров PCR произвольного доступа к выбранным изображениям с помощью ПЦР путем амплификации разбавленной ДНК и передачи ее на секвенирование.

Изображение «NUS» было селективно амплифицировано с индексами N701 и N501 из 50000х разведения. Это показало работоспособность метода поиска конкретного изображения из смешанного пула, состоящего из пяти изображений, а также эффективность амплификации нужного изображения из небольшого количества исходных образцов (2D). Попытки получить другие изображения, содержащиеся в смешанной библиотеке, после выборочной амплификации не увенчались успехом, что продемонстрировало возможности целенаправленной амплификации выборочных изображений.

Далее было проведено исследование граничных возможностей камеры BacCam. Одним из способов повышения плотности и стабильности ДНК является ее сушка из-за гидролитической активности молекул воды на фосфатном остове. Это также приводит к уменьшению объема, что приводит к более высокой общей плотности. Чтобы проверить жизнеспособность исследуемого хранилища после сушки, ученые высушили объем ДНК, соответствующий изображению «смайлик», перед регидратацией и секвенированием. Результаты тестов показали, что изображения в высушенном виде могут быть успешно извлечены с нулевой потерей точности по сравнению с жидкими, замороженными изображениями (3B).

Ученые также подвергли образец ДНК с изображением «Heloo wo{|d!» экспериментам по ускоренному старению. Это было сделано путем сравнения идентичных образцов в водной форме, где один пребывал в условиях при комнатной температуре, а другой хранился в печи при 60 °C. Оба образца находились в своих условиях в течение 1 недели.

Считается, что данные, закодированные в высушенной ДНК, хранившейся при температуре 70 °C в течение 7 дней, не могут быть извлечены. При температуре 9.4 °C продолжительность хранения ДНК составляет 2000 лет. Тесты показали успешное извлечение выбранного изображения из всех образцов без потери информации (3C).


Изображение №4

После получения данных секвенирования рассчитывались и распределялись по соответствующим лункам доли вырезанной и не вырезанной ДНК.

Чтобы определить правильный порог, который позволит точно разделить записанные световые сигналы, был использован ручной процесс определения, основанный на предварительном знании закодированного изображения. Этого метода вполне достаточно ввиду того, что закодированный паттерн заранее известен, но для обеспечения работы системы кодирования и поиска истинной информации необходим метод, который может реконструировать потенциальное изображение исключительно из секвенированных данных. Вычислительные методы кластеризации, такие как методы неконтролируемого машинного обучения, могут использоваться для автоматического определения отдельных групп/кластеров (4A).

Ученые протестировали несколько методов кластеризации с различными настройками параметров на существующих наборах данных. Затем было проведено сравнение работы этих методов с результатами ручного определения на основе предварительного знания закодированного изображения. Результаты показали, что метод кластеризации OPTICS и трехкомпонентная модель гауссовой смеси (GMM от Gaussian mixture model) дали кластеры, которые наиболее точно имитируют ручное определение.

Проверка результатов, полученных с помощью GMM на разных этапах рабочего процесса (4B) показала, как каждый этап способствует получению точного конечного результата. Была показана надежность автоматизированного метода и успешность деконволюции изображения с точностью > 0.9 (4C).


Изображение №5

Как отмечают ученые, одним из важных преимуществ использования света является возможность простого мультиплексирования с добавлением различных длин волн. Ученые переработали чувствительную к красному свету рекомбиназу Cre (pBbS5a-RLCre), первоначально разработанную в дрожжевых системах, чтобы добавить длину волны красного света к существующему рабочему процессу BacCam для синего света.

Чтобы можно было различать две световые системы, была разработана еще одна записывающая плазмида (pBbAW4k-Spacer1Barcoding-loxP-TT-loxP-ho1-pcyA), содержащая другой промежуточный штрих-код. Это позволяло отличать изменения, вызванные воздействием красного света, от тех, которые вызваны воздействием синего света (5A). Дополнительно было создано программируемое устройство светового излучения (OptoBox) для проецирования нескольких цветов света в одну и ту же лунку.

Совместное культивирование бактерий, реагирующих на синий и красный свет, в одной и той же лунке способно воспринимать несколько длин волн света одновременно и, таким образом, одновременно кодировать два отдельных изображения.

Изображения кодировались двумя разными способами. Один из способов включал ночное проецирование синего светового паттерна вместе с красным в чередующемся режиме, при этом каждый паттерн проецировался в течение 10 минут перед переключением. Другой способ заключался в одновременном проецировании обоих паттернов (5B).

Опыты показали успешное кодирование и извлечение двух разных изображений с разной длиной волны света, причем оба метода проецирования оказались вполне рабочими, с минимальной точностью > 90% для каждого закодированного изображения (5C).

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.

Эпилог

В рассмотренном нами сегодня труде ученые продемонстрировали новый метод хранения цифровой информации на ДНК, в котором задействованы живые клетки.

Объемы цифровой информации неумолимо растут с каждым годом, в результате чего у научного сообщества появляется много работы в области поисков новых эффективных методов ее хранения. ДНК является отличным хранилищем данных, ведь именно этим она и занимается от природы, перенося генетическую информацию, кодирующую различные белки, выполняющие множество функций. Один грамм ДНК может содержать 215000 терабайт данных. Кроме того, с ДНК легко работать, используя современные инструменты молекулярной биологии, она может храниться в различных формах при комнатной температуре, а срок ее службы (фигурально выражаясь) может превышать столетия.

Потенциал ДНК в сфере хранения цифровых данных огромен. Вопрос в том, как его полноценно реализовать. Современные методы по большей степени ориентированы на синтезе нитей ДНК вне клеток. Этот метод очень дорогой, требует весьма сложного оборудования (следовательно и обученных специалистов) и подвержен ошибкам.

Авторы рассмотренного нами сегодня труда нашли решение всех этих проблем, и лежало оно на поверхности. Они решили использовать живые клетки, которые изначально от природы содержат большое количество ДНК, которую можно использовать в качестве хранилища данных. Для реализации этой амбициозной идеи ученые создали BacCam — новую систему, которая объединяет различные биологические и цифровые методы для имитации функций цифровой камеры с использованием биологических компонентов.

Авторы разработки дают вполне понятное сравнение. ДНК внутри клетки — это непроявленная фотопленка. Посредством оптогенетики, которая контролирует активность клеток с помощью света, можно получить изображение, запечатлевая световые сигналы на «пленке» ДНК, как это делает затвор камеры. Затем, используя методы штрих-кодирования, ученые помечали захваченные изображения для уникальной идентификации. А процессы организации, сортировки и реконструкции выполнялись с помощью машинного обучения.

Одной из отличительных черт BacCam является возможность одновременно захватывать и хранить сразу несколько изображений за счет применения разного цвета светового излучения. Кроме того, во время считывания данных есть возможность селективно извлекать только конкретно выбранное изображение.

Как заявляют ученые, их разработка является первой в мире «живой цифровой камерой», которая открывает двери для более экономного, простого и эффективного метода хранения данных на ДНК. В будущем планируется еще множество опытов, направленных на расширение возможностей BacCam, но уже сейчас можно сказать, что данная технология обладает колоссальным потенциалом.

Немного рекламы

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

 

Источник

Читайте также