Обалденные вещи из мира науки
- 19.08.12, 00:02
- генетика, днк, информация, наука
Учёные из Гарварда записали 643 килобайта данных в молекулу ДНК
Молекулы ДНК — это идеальный носитель информации: они фантастически компактны, стабильны, энергетически эффективны и надёжны: доказанная продолжительность хранения информации в ДНК составляет 3,5 миллиарда лет. Четыре грамма молекул ДНК, теоретически, могут вместить всю информацию, созданную человечеством за год.
Неудивительно, что учёные упорно пытаются найти удобный способ записи и считывания информации из ДНК. Два года назад биологи из Гонконга сумели внедрить в клетку бактерии E.coli синтетическую ДНК с несколькими килобайтами зашифрованной информации. В одном грамме бактерий около 10 млн клеток, а информационная плотность такого хранилища можно оценить в 900 ТБ на 1 грамм бактерий.
Сейчас специалисты из Кембриджского университета под руководством Джорджа Чёрча (George Church) бросили вызов китайским коллегам и поставили новый рекорд по количеству информации, внедрённой в синтетическую ДНК. Они смогли записать текст целой книги в 1 пикограмм молекул(пикограмм — одна триллионная грамма). Научная работа опубликована 16 августа 2012 года в журнале Science.
Для кодирования информации в ДНК используется четверичная система счисления, по количеству нуклеотидов (0 = A, 1 = T, 2 = C, 3 = G). Специалисты из Китайского университета Гонконга переводили текст в цифры по таблице ASCII (i = 105; G = 71; E = 69; M = 77), затем в четверичную систему (105 1221; 71 0113; 69 0111; 77 0131), а потом в цепочку нуклеотидов.
iGem 1221011301110131 ATCTATTGATTTATGT
Специалисты из Гарварда использовали другой метод. Во-первых, они принципиально отказались от использования живых организмов, а внедряли синтетическую ДНК в молекулу, сгенерированную на коммерческом ДНК-чипе. Таким образом, записанная информация не может быть потеряна из-за генетических мутаций при эволюции организма-носителя.
Во-вторых, они кодировали не текст ASCII, а бинарный код — последнюю книгу Чёрча, с сохранением форматирования HTML и иллюстраций JPEG. Перед записью код разбили на 96-битные блоки. Общий объём записанной информации составил 54898 таких блоков, то есть примерно 643 килобайта, включая служебную информацию — 19-битный уникальный адрес каждого блока (на диаграмме внизу он изображён красным цветом).
В данном эксперименте достигнута информационная плотность записи 5,5 петабит на кубический миллиметр. Такой показатель плотности информации можно сравнить с передовыми разработками в области квантовой голографии, но если там требуется создание экстремально низких температур, то бактерии ДНК отлично себя чувствуют при комнатной температуре. «Вы можете бросить их где хотите, в пустыне или у себя во дворе, и они будут там через 400 тысяч лет», — говорит профессор Чёрч.
Запись и считывание информации, то есть синтез и секвенирование ДНК, конечно, происходит гораздо медленнее, чем запись и считывание магнитных или оптических накопителей. Поэтому биологические молекулы больше приспособлены для долговременного хранения больших объёмов данных, а не для частого считывания.
Молекулы ДНК — это идеальный носитель информации: они фантастически компактны, стабильны, энергетически эффективны и надёжны: доказанная продолжительность хранения информации в ДНК составляет 3,5 миллиарда лет. Четыре грамма молекул ДНК, теоретически, могут вместить всю информацию, созданную человечеством за год.
Неудивительно, что учёные упорно пытаются найти удобный способ записи и считывания информации из ДНК. Два года назад биологи из Гонконга сумели внедрить в клетку бактерии E.coli синтетическую ДНК с несколькими килобайтами зашифрованной информации. В одном грамме бактерий около 10 млн клеток, а информационная плотность такого хранилища можно оценить в 900 ТБ на 1 грамм бактерий.
Сейчас специалисты из Кембриджского университета под руководством Джорджа Чёрча (George Church) бросили вызов китайским коллегам и поставили новый рекорд по количеству информации, внедрённой в синтетическую ДНК. Они смогли записать текст целой книги в 1 пикограмм молекул(пикограмм — одна триллионная грамма). Научная работа опубликована 16 августа 2012 года в журнале Science.
Для кодирования информации в ДНК используется четверичная система счисления, по количеству нуклеотидов (0 = A, 1 = T, 2 = C, 3 = G). Специалисты из Китайского университета Гонконга переводили текст в цифры по таблице ASCII (i = 105; G = 71; E = 69; M = 77), затем в четверичную систему (105 1221; 71 0113; 69 0111; 77 0131), а потом в цепочку нуклеотидов.
iGem 1221011301110131 ATCTATTGATTTATGT
Специалисты из Гарварда использовали другой метод. Во-первых, они принципиально отказались от использования живых организмов, а внедряли синтетическую ДНК в молекулу, сгенерированную на коммерческом ДНК-чипе. Таким образом, записанная информация не может быть потеряна из-за генетических мутаций при эволюции организма-носителя.
Во-вторых, они кодировали не текст ASCII, а бинарный код — последнюю книгу Чёрча, с сохранением форматирования HTML и иллюстраций JPEG. Перед записью код разбили на 96-битные блоки. Общий объём записанной информации составил 54898 таких блоков, то есть примерно 643 килобайта, включая служебную информацию — 19-битный уникальный адрес каждого блока (на диаграмме внизу он изображён красным цветом).
В данном эксперименте достигнута информационная плотность записи 5,5 петабит на кубический миллиметр. Такой показатель плотности информации можно сравнить с передовыми разработками в области квантовой голографии, но если там требуется создание экстремально низких температур, то бактерии ДНК отлично себя чувствуют при комнатной температуре. «Вы можете бросить их где хотите, в пустыне или у себя во дворе, и они будут там через 400 тысяч лет», — говорит профессор Чёрч.
Запись и считывание информации, то есть синтез и секвенирование ДНК, конечно, происходит гораздо медленнее, чем запись и считывание магнитных или оптических накопителей. Поэтому биологические молекулы больше приспособлены для долговременного хранения больших объёмов данных, а не для частого считывания.
(сперто с Хабра http://habrahabr.ru/post/149814/)