В пробе ДНК в пипетке (розовый след) можно хранить около 9 ТБ данных
Сотрудники исследовательского подразделения Microsoft и команда ученых из Вашингтонского университета смогли успешно сохранить в ДНК ряд изображений, а затем считать эту информацию без ошибок. Всего в работе использовалось четыре графических файла, размер которых составлял от 5 до 24 КБ. Предварительные результаты своей работы специалисты опубликовали в ASPLOS.
Почему в качестве носителя информации выбрали ДНК? Дело в том, что запись данных здесь можно вести с очень высокой плотностью. По предварительным подсчетам, эксабайт данных может быть сохранен в объеме кубического миллиметра. Кроме того, ДНК — «долгожитель» в мире носителей информации. Срок хранения данных на таком носителе составляет 500 лет и больше. Правда, процесс считывания и записи технически сложен и дорог, но с течением времени и эти две проблемы могут быть решены.
Процесс записи и считывания информации с использованием ДНК
Сейчас вопрос поиска новых типов носителей информации стоит как никогда остро. Цифровая вселенная быстро расширяется, и к 2020 году ученые предсказывают увеличение общего объема хранимой человечеством информации до 44 триллионов гигабайт. Не всякую информацию, генерируемую человеком, можно назвать полезной и нужной, но место она занимает. Причем генерируется информация быстрее, чем производятся носители.
Ли Органик (Lee Organic), член команды исследователей, готовит смесь проб ДНК для записи информации. В каждой «пробирке» может быть котик или симфония Чайковского (источник: Tara Brown Photography/ University of Washington)
Молекулы ДНК могут хранить информацию сотни лет, как уже говорилось выше, а плотность записи данных в десятки тысяч раз выше, чем в случае обычных SSD, жестких дисков, оптических накопителей. Причем все это «железо» приходит в негодность гораздо быстрее, чем ДНК.
Команда ученых разработала способ записи последовательностей единиц и нулей при помощи блоков последовательностей ДНК — аденина, гуанина, цитозина и тимина. Единицей хранения является последовательность примерно из 200 нуклеотидов, с объемом информации в 50-100 бит. Для хранения больших массивов данных используется множество фрагментов, собранных в единый пул. Архитектура, используемая для хранения — это ключ-значение. А в качестве ключа для получения данных используются праймеры полимеразной цепной реакции. Эти праймеры указывают на те фрагменты ДНК, где хранится записанная информация.
Стоит отметить, что при использовании технологии записи информации на ДНК возможны ошибки, вероятность их не так и мала — около процента. Поэтому ученые работали с модифицированным кодированием Голдмэна. Такой тип записи позволяет восстанавливать третий фрагмент ДНК по любым двум другим фрагментам. Таким образом, в такую систему вводится «запас прочности», такой принцип хранения данных использует избыточность для увеличения точности считывания информации. Хранить можно любую информацию, включая текст, изображения, видео.
Всего в процессе записи/чтения было задействовано 45652 последовательности из 120 нуклеотидов.