新利平台 > 即時新聞 > 文化

中國科學家創新DNA存儲算法 讓敦煌壁畫再“活”兩萬年

發布時間:2022-10-10 11:15:00來源: 中國青年報

 

  科幻大片《侏羅紀公園》裏講述了這樣一個(ge) 故事:科學家找到一塊有史前蚊子的琥珀,從(cong) 蚊子血中獲得了恐龍的基因,從(cong) 而讓已滅絕了6000多萬(wan) 年的恐龍複活。

  恐龍的生物信息存儲(chu) 在DNA中,若幹年後被提取並還原出來。這聽上去似乎有些道理,卻也讓人倒吸一口涼氣。

  最近,天津大學一項研究成果讓人們(men) 離想象又近了一些。該校合成生物學團隊將10幅精選敦煌壁畫存入DNA中,並通過加速老化等實驗,發現這些壁畫信息在常溫下可保存千年,在9.4℃下可保存兩(liang) 萬(wan) 年。

  “如果在合適的溫度等條件下,保存千萬(wan) 年也是可以的。”中國科學院院士、天津大學副校長元英進說。

  小小的DNA卻擁有驚人的存儲(chu) 容量

  人類文明進化史,也是一部信息存儲(chu) 技術發展史。

  從(cong) 結繩記事、倉(cang) 頡造字到磁帶、硬盤等現代磁光電存儲(chu) 技術,數據存儲(chu) 幫助人類延續了思想,記錄下燦爛文明。造紙與(yu) 印刷術的發明,讓人類能夠存儲(chu) 的數據量在幾百年內(nei) 獲得了大約5個(ge) 數量級的提升。到了計算機時代,人類產(chan) 生的數據呈爆發式增長。

  “全世界都在建數據中心,而數據中心的能耗是驚人的。”元英進說。人們(men) 一直在不斷尋找更海量、更穩定、更安全的存儲(chu) 方式。

  大自然鬼斧神工的絕妙之處就在於(yu) 此——最好的存儲(chu) 器或許就藏身於(yu) 生命體(ti) 之中。

  自地球上出現生命以來,大自然一直用DNA來存儲(chu) 信息,至今已有30多億(yi) 年。人類的五官在臉上如何擺放,體(ti) 內(nei) 的蛋白怎樣合成,眼睛是什麽(me) 顏色……諸如此類紛繁複雜的人類基因組信息,都記錄在比細胞還小得多的DNA上,一代代沿用至今。

  不同於(yu) 各種人造存儲(chu) 設備,DNA極其精巧卻又如此經久耐用,它存儲(chu) 了億(yi) 萬(wan) 年來無數生物的遺傳(chuan) 信息,造就生命繁衍、進化演化及生物多樣性。

  那麽(me) ,假如把海量的信息,像存入U盤、硬盤一樣,“寫(xie) ”到小小的DNA上,豈不是一舉(ju) 多得?事實上,當人類發現DNA的雙螺旋結構後,美俄科學家就先後提出了用DNA存儲(chu) 數字信息的概念。

  元英進解釋說,DNA存儲(chu) 相較於(yu) 磁、光、電等常規的信息存儲(chu) 介質有3個(ge) 最顯著的優(you) 勢。其中最大的優(you) 勢在於(yu) 存儲(chu) 密度高。目前,天津大學研究團隊將部分經典視頻片段存儲(chu) 在DNA中,已實現了體(ti) 積存儲(chu) 密度比普通硬盤高出6個(ge) 數量級。

  與(yu) 此同時,存儲(chu) 的信息可用時間非常長。此次研究者將10幅敦煌壁畫信息存儲(chu) 在DNA中,結合創新的算法,可以實現DNA分子在室溫下保存超過千年,在9.4℃條件下保存兩(liang) 萬(wan) 年。

  這樣的長期保存需要的能耗卻很低。元英進認為(wei) ,DNA存儲(chu) 被視為(wei) 一種極具潛力的存儲(chu) 技術,已經成為(wei) 應對數據存儲(chu) 增長挑戰的新機遇。

  壁畫“變身”DNA需要幾步

  DNA信息存儲(chu) 的原理共分兩(liang) 步——信息寫(xie) 入和信息讀取。

  這個(ge) 過程實際上跨越了極難逾越的鴻溝:它打破了有機與(yu) 無機的界限,連起生命和信息兩(liang) 大係統。

  DNA是脫氧核糖核酸的縮寫(xie) ,含有“A”“T”“C”“G”四種堿基。如果用數字中的0、1、2、3分別代表一個(ge) 堿基,就組成了一個(ge) 四進製的存儲(chu) 方式,類似於(yu) 計算機采用的0和1二進製代碼。

  通過編碼轉化,“堿基四進製”和“計算機二進製”就可以實現“對話”。天津大學合成生物學前沿科學中心博士生韓明哲解釋說,壁畫的數字圖像本質上就是二進製的比特串,“我們(men) 通過編碼將這些二進製的比特串,轉化為(wei) 四進製的ATGC堿基序列,再通過DNA合成技術將堿基序列寫(xie) 入DNA中,壁畫的數據圖像就‘變’為(wei) DNA了。”

  此前,該團隊成功在釀酒酵母中合成了一條額外的人工染色體(ti) ,並在上麵存儲(chu) 了兩(liang) 張圖片及一段視頻信息,將其稱之為(wei) “酵母CD”。隨著酵母的不斷繁殖擴增,數字信息也隨之廉價(jia) 且穩定地複製。

  “我們(men) 傳(chuan) 代培養(yang) 酵母到100代,依然可以完美地恢複出原始數據。”元英進說,假如腦洞更大一點,將信息存儲(chu) 到一棵樹中,隨著樹生長千百年,人類的子孫後代都可以隨時從(cong) 這棵樹中讀取到千百年前存儲(chu) 的信息。

  這一次,這支年輕團隊的創新之處在於(yu) ,能實現更惡劣條件下可靠讀取信息。韓明哲說,存了壁畫信息的DNA,本質上其實跟天然的DNA沒有什麽(me) 不同,同樣也存在長時間存放而產(chan) 生的斷裂和降解等問題,影響信息存儲(chu) 的長期可靠性,這也成為(wei) 亟待解決(jue) 的關(guan) 鍵科學問題。

  於(yu) 是,他們(men) 設計了基於(yu) 德布萊英圖理論的序列重建算法來解決(jue) DNA斷裂等問題,可以從(cong) 嚴(yan) 重降解的DNA樣本中,恢複原始的信息。

  為(wei) 了驗證數據的長期可靠性,團隊製備了一個(ge) 沒有任何特殊保護的DNA水溶液樣本,隨後在70℃的溫度下加速樣本斷裂、降解長達十周。韓明哲說:“這個(ge) 過程使得DNA片段80%以上都發生了斷裂錯誤,模擬了DNA在自然環境下千年萬(wan) 年的降解情形。”

  隨後,團隊依靠設計的序列重建算法,依然可以準確組裝並解碼96.4%以上的片段,再通過一種編碼方式解決(jue) 了少量片段丟(diu) 失的問題,使原始的敦煌壁畫圖片能夠完美恢複。

  DNA存儲(chu) 走向實用化還有多遠

  盡管DNA存儲(chu) 還不被大眾(zhong) 所熟知,但它正在努力走出實驗室,“距離實用化並不遙遠。”元英進說,驚人的數據存儲(chu) 需求是新技術走向市場的最大推動力。

  據國際數據公司估計,到2025年全球數據總量將達到175ZB(1ZB為(wei) 十萬(wan) 億(yi) 億(yi) 字節)。到2024年,全球將有30%的數字業(ye) 務進行DNA存儲(chu) 試驗。然而從(cong) 目前來看,DNA存儲(chu) 想要大規模應用,尤其是在中國實用化還需要突破幾個(ge) 關(guan) 鍵瓶頸。

  團隊分析了當前DNA信息存儲(chu) 麵臨(lin) 的主要挑戰。信息存儲(chu) 成本高、信息讀寫(xie) 速度慢,以及無法高效對接現有信息係統是三大主要限製因素。

  根據測算,目前DNA存儲(chu) 寫(xie) 入成本相當於(yu) 20世紀80年代內(nei) 存的存儲(chu) 成本,而要達到當前數據存儲(chu) 成本還需要降低7-8個(ge) 數量級。

  “DNA信息存儲(chu) 成本在未來有很大下降的潛力。”韓明哲認為(wei) ,今後可以從(cong) 優(you) 化合成反應、改良芯片結構、替換廉價(jia) 耗材、優(you) 化試劑分配量等方麵著手,大幅降低合成成本。

  與(yu) 此同時,由於(yu) 信息存儲(chu) 領域市場規模巨大,隨著半導體(ti) 器件、微納加工在DNA信息存儲(chu) 領域的應用,該領域的巨大投入將對DNA合成技術產(chan) 生重大影響,DNA合成技術與(yu) 裝備快速迭代升級,也有望使成本快速下降。

  DNA信息存儲(chu) 的讀取依賴測序技術,與(yu) 磁、光、電等存儲(chu) 相比,讀取速度較慢。目前DNA測序儀(yi) 的讀取速度與(yu) 硬盤相比,還存在3-4個(ge) 數量級的差距——現有電、磁存儲(chu) 技術通常每秒可讀取幾十到幾百兆字節數據。此外,DNA存儲(chu) 的標準尚待建立,麵臨(lin) 與(yu) 現有數字存儲(chu) 係統兼容的問題。

  “DNA信息存儲(chu) 是一個(ge) 新興(xing) 的、多學科深度交叉融合的研究方向。”元英進認為(wei) ,DNA存儲(chu) 在未來極有可能成為(wei) 龐大冷數據存儲(chu) 的主要存儲(chu) 介質。

  所謂冷數據,就如同檔案館的曆史資料,需要把海量信息保存好,但平時又很少去使用。因為(wei) 這些數據需要長期存儲(chu) 、耗能又大,而電子存儲(chu) 設備的壽命往往隻有十年到幾十年,並需要不斷更新迭代,難以滿足冷數據存儲(chu) 的需要。

  DNA存儲(chu) 走向實用化仍麵臨(lin) 很多挑戰。元英進認為(wei) ,眼下的突破可能還隻是冰山一角,“技術進步需要十年磨一劍的耐心,還需要一點運氣。”

  中青報·中青網記者 胡春豔 通訊員 趙暉 來源:中國青年報

(責編:常邦麗)

版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。