怀化焕毕租售有限公司

詳解哈佛如何用DNA遺傳物質(zhì)儲(chǔ)存信息

[2012/9/11]

  哈佛大學(xué)研究人員將一本大約有5.34萬(wàn)個(gè)單詞的書(shū)籍編碼進(jìn)不到億萬(wàn)分之一克的DNA微芯片,然后成功利用DNA測(cè)序來(lái)閱讀這本書(shū)。

  這是迄今為止人類(lèi)使用DNA遺傳物質(zhì)儲(chǔ)存數(shù)據(jù)量最大的一次實(shí)驗(yàn)。

  “今后,拇指大小的設(shè)備就能存下整個(gè)互聯(lián)網(wǎng)的信息!痹擁(xiàng)目的首席研究員、哈佛大學(xué)遺傳學(xué)家喬治·丘奇說(shuō)。

  要說(shuō)信息存儲(chǔ),沒(méi)有一樣比得過(guò)DNA。人們很早就覬覦我們自身的基因代碼存儲(chǔ)數(shù)據(jù)的潛力,但如何將信息編碼進(jìn)DNA遺傳物質(zhì)再如何解讀出來(lái),一直是個(gè)難題。

  近日,哈佛大學(xué)維斯生物工程研究所的一群研究人員嘗試將一本大約有5.34萬(wàn)個(gè)單詞的書(shū)籍編碼到不到一沙克(億萬(wàn)分之一克)的DNA微芯片中,連同文字一起的還有11張圖片和一段Java程序。這是迄今為止人類(lèi)使用DNA遺傳物質(zhì)儲(chǔ)存數(shù)據(jù)量最大的一次實(shí)驗(yàn)!敖窈螅粗复笮〉脑O(shè)備就能存下整個(gè)互聯(lián)網(wǎng)的信息!痹擁(xiàng)目首席研究員、哈佛大學(xué)遺傳學(xué)家喬治·丘奇(GeorgeChurch)說(shuō),被編碼進(jìn)DNA的書(shū)正是他的大作《再生:合成生物學(xué)將如何改變未來(lái)的自然和自己》。

  這項(xiàng)實(shí)驗(yàn)被刊登在《科學(xué)》期刊上。但因編碼存儲(chǔ)和讀取過(guò)程太過(guò)昂貴,DNA存儲(chǔ)離商業(yè)化還有一段距離!半S著DNA合成、測(cè)序價(jià)格的不斷下降,這或許將成為長(zhǎng)期存儲(chǔ)數(shù)據(jù)的一種選擇!惫鸫髮W(xué)生物學(xué)教授可蘇里(SriramKosuri)說(shuō)。這一實(shí)驗(yàn),或許為解決未來(lái)社會(huì)爆炸性的大數(shù)據(jù)存儲(chǔ)指明了方向。

  從二進(jìn)制到堿基對(duì)編碼

  DNA是生物數(shù)據(jù)庫(kù),它的主要功能就是存儲(chǔ)包含各種指令的生物信息。DNA有G(鳥(niǎo)嘌呤)、T(胸腺嘧啶)、A(腺嘌呤)、C(胞嘧啶)四種堿基,共同構(gòu)成了相互纏繞的雙鏈階梯狀的螺旋結(jié)構(gòu)。通過(guò)這四種堿基不同順序的編碼,存儲(chǔ)了生物所有的遺傳信息。

  現(xiàn)代計(jì)算機(jī)技術(shù)奠基者之一馮·諾依曼曾在1948年提出“自動(dòng)復(fù)制機(jī)器”的設(shè)想:一個(gè)能夠自我繁殖的系統(tǒng),不僅能夠構(gòu)建某個(gè)組成元素,結(jié)構(gòu)和自己一致的下一代,也能夠把對(duì)自身的描述傳遞給下一代,如此往復(fù)。后來(lái)隨著生物遺傳的奧妙被發(fā)現(xiàn),人們意識(shí)到,DNA雙螺旋結(jié)構(gòu)正是馮·諾依曼描述的自動(dòng)復(fù)制機(jī)器。

  DNA里的四種堿基,兩兩互補(bǔ)成對(duì)。一個(gè)最短的DNA分子也有4000個(gè)堿基對(duì),可能的排列方式就有44000種。堿基對(duì)排列順序千變?nèi)f化,從而能夠存儲(chǔ)大量的遺傳信息。

  向活體DNA里寫(xiě)入數(shù)據(jù),有諸多困難,細(xì)胞會(huì)死亡、分裂、變異,數(shù)據(jù)內(nèi)容就會(huì)發(fā)生改變。

  在本文開(kāi)頭提到的那項(xiàng)實(shí)驗(yàn)中,科學(xué)家們沒(méi)有采用活細(xì)胞的基因組,而是采用了人工合成的DNA片段。他們用很多短的DNA序列而非長(zhǎng)DNA序列來(lái)編碼數(shù)據(jù),這類(lèi)似于硬盤(pán)寫(xiě)入的原理,在硬盤(pán)中,數(shù)據(jù)是被寫(xiě)入稱(chēng)為扇區(qū)的小硬盤(pán)塊,這樣能夠降低寫(xiě)入和讀取數(shù)據(jù)的困難和成本。科學(xué)家們將這種片段用噴墨打印機(jī)嵌入到微陣列芯片表面。接著,他們把計(jì)劃寫(xiě)入DNA的書(shū)里包含的信息:圖片、文字、程序轉(zhuǎn)化為HTML格式的文件,并將這些文件編譯為由0和1組成的電腦能夠讀懂的2進(jìn)制數(shù)據(jù)。然后,他們將2進(jìn)制數(shù)據(jù)轉(zhuǎn)為四種堿基,把0轉(zhuǎn)為A或C,把1轉(zhuǎn)成G或者T,并建立DNA鏈來(lái)維系這些編碼的順序和位置。每一個(gè)DNA片段還包含一個(gè)數(shù)字“條碼”,記錄它在原始文件中的位置,每個(gè)片段被合成多個(gè)拷貝以便有助于校正錯(cuò)誤。編碼完成后,這些芯片會(huì)在4攝氏度下保持三個(gè)月。

  測(cè)序就是讀取數(shù)據(jù)的過(guò)程:?jiǎn)⒂肈NA測(cè)序裝置,將所有DNA片斷中的編碼按照標(biāo)記順序排列,再還原成2進(jìn)制格式的數(shù)據(jù)。每個(gè)DNA片斷的每一個(gè)拷貝被測(cè)序高達(dá)3000次以便校對(duì)。利用這種方式,他們將5.27兆數(shù)據(jù)中的錯(cuò)誤降低到只有12個(gè)。這種尺寸微小的存儲(chǔ)設(shè)備,存儲(chǔ)密度遠(yuǎn)遠(yuǎn)高于DVD、硬盤(pán)等介質(zhì),效果也毫不遜色。

  丘奇認(rèn)為,和其他生物存儲(chǔ)介質(zhì)相比,DNA存儲(chǔ)比較可靠,在室溫下也是穩(wěn)定的,你甚至可以將它放在任何地方,幾十萬(wàn)年后,它還在那里,F(xiàn)在的問(wèn)題是,DNA存儲(chǔ)設(shè)備的訪問(wèn)速度很慢,存取和讀取都很花費(fèi)時(shí)間,如何覆蓋和重寫(xiě)數(shù)據(jù)也是個(gè)問(wèn)題。好消息是,隨著測(cè)序技術(shù)的進(jìn)展,DNA編碼和測(cè)序的成本會(huì)逐年下降,離商業(yè)化應(yīng)用也就不遠(yuǎn)了。

  生物硬盤(pán)

  在人們把目光投向生物存儲(chǔ)之前,占據(jù)存儲(chǔ)市場(chǎng)主流的就是現(xiàn)在的存儲(chǔ)介質(zhì),主要是磁盤(pán)、光盤(pán)。1949年,電腦的磁存儲(chǔ)設(shè)備問(wèn)世,意味著信息可以隨時(shí)存取和控制,這個(gè)設(shè)備改變了整個(gè)行業(yè)。一塊鋁制圓片,涂上磁性介質(zhì),因?yàn)榇庞姓?fù)級(jí),在電磁效應(yīng)作用下,可以方便地存儲(chǔ)和表達(dá)010101的二進(jìn)制信息。無(wú)論磁盤(pán)還是硬盤(pán),基本原理幾乎一樣。經(jīng)過(guò)60多年的發(fā)展,磁存儲(chǔ)行業(yè)已經(jīng)可以在3.5英寸大小的驅(qū)動(dòng)上存儲(chǔ)3TB數(shù)據(jù)。

  另一種主流的光存儲(chǔ)也在不斷挑戰(zhàn)存儲(chǔ)極限。光盤(pán)將數(shù)字編碼的視頻和音頻儲(chǔ)存在光盤(pán)表面的凹槽中。激光讀取這些凹槽的背面,就能播放儲(chǔ)存的電影節(jié)目。光盤(pán)包含的數(shù)據(jù)越多,凹槽就必須越小、越緊湊。與之相對(duì),讀取激光的精度也必須越來(lái)越高。普通DVD使用的是紅色激光在凹槽里記錄信息,藍(lán)色激光波長(zhǎng)比紅色激光長(zhǎng),較小的光束聚焦更準(zhǔn)確。此外,藍(lán)光光盤(pán)將軌距從0.74微米縮小到0.32微米。更小的凹槽,更小的光束以及更短的軌距結(jié)合,藍(lán)光的問(wèn)世正是順應(yīng)了大數(shù)據(jù)存儲(chǔ)的潮流,F(xiàn)在單層藍(lán)光光盤(pán)能夠保存25GB以上的信息,是DVD可儲(chǔ)存信息量的5倍。還有人在研發(fā)用紫外線做激光,其波長(zhǎng)比藍(lán)光更短,如果成功,一張光盤(pán)可以保存500GB的數(shù)據(jù)。

  這些存儲(chǔ)方式有一個(gè)共同的缺點(diǎn),磁片表面也好,光盤(pán)表面也好,都是單層的平鋪式地記錄和保存信息,哪怕磁盤(pán)每一層可以疊加,也和DNA封閉的雙螺旋立體結(jié)構(gòu)無(wú)法媲美,記錄的數(shù)據(jù)量相去甚遠(yuǎn)。一克DNA即能儲(chǔ)存上千億個(gè)千兆字節(jié),相當(dāng)于1000億張DVD光盤(pán)的內(nèi)容。

  隨著摩爾定律的升級(jí),人們已經(jīng)逐步接近傳統(tǒng)電子制造的極限。人們?cè)缇烷_(kāi)始在自然中尋找解決問(wèn)題的靈感。早在2007年,就有日本科學(xué)家研究利用趨磁細(xì)菌制造出和傳統(tǒng)計(jì)算機(jī)原件類(lèi)似的東西,代替磁盤(pán)存貯數(shù)據(jù)。今年初,又爆出德國(guó)和臺(tái)灣的一個(gè)聯(lián)合科研團(tuán)隊(duì)以三文魚(yú)的DNA作為基礎(chǔ),制造出單次寫(xiě)入多次讀取的存儲(chǔ)器。不過(guò),那個(gè)DNA存儲(chǔ)裝置只能儲(chǔ)存數(shù)據(jù)至多30小時(shí),且它并沒(méi)有利用DNA的結(jié)構(gòu)進(jìn)行編碼。

  這是個(gè)數(shù)據(jù)爆炸的時(shí)代,無(wú)處不在的攝像頭,互聯(lián)網(wǎng)上成倍增長(zhǎng)的信息,大量手持設(shè)備的照片、視頻??如果生物存儲(chǔ)技術(shù)足夠成熟,人們可以記錄所有想記錄的一切,而不必?fù)?dān)心家里沒(méi)有地方放硬盤(pán)。市政部門(mén)也不必每隔一段時(shí)間就清理街道攝像頭的視頻記錄,釋放存儲(chǔ)空間。

  微流體和芯片實(shí)驗(yàn)室的發(fā)展,讓DNA合成和測(cè)序變成一項(xiàng)日常工作。以前,要解碼一個(gè)人類(lèi)基因得花幾年,現(xiàn)在用微流體芯片技術(shù)只要不到一天。如果用于長(zhǎng)期存儲(chǔ),這樣的速度還是可以接受的。隨著DNA讀寫(xiě)技術(shù)的商業(yè)化,未來(lái)的DNA硬盤(pán),或許會(huì)和今天的硬盤(pán)、光碟一樣普遍。