Small Methods | 一種用于歸檔和檢索醫(yī)學(xué)磁共振成像數(shù)據(jù)的高效DNA存儲系統(tǒng)
近日,中國科學(xué)院深圳先進技術(shù)研究院姜青山研究員、黃小羅高級工程師、中國農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所戴俊彪研究員等聯(lián)合在國際學(xué)術(shù)期刊Small Methods (IF=12.4)上發(fā)表了題為An Effective DNA-Based File Storage System for Practical Archiving and Retrieval of Medical MRI Data的研究文章(圖1)。
文章中設(shè)計了一種名為"EDS"的DNA存儲方法,通過改進編碼模型、引入冗余核苷酸和設(shè)計索引技術(shù),實現(xiàn)了醫(yī)學(xué)MRI數(shù)據(jù)的可靠歸檔和檢索。

圖1. 文章上線截圖
文章鏈接:https://doi.org/10.1002/smtd.202301585
醫(yī)學(xué)MRI數(shù)據(jù)是診斷、治療規(guī)劃和疾病監(jiān)測等多種領(lǐng)域的重要工具。利用DNA存儲技術(shù)保存醫(yī)學(xué)MRI數(shù)據(jù)將有助于人類健康管理。通過DNA存儲,可以確保這些重要數(shù)據(jù)在數(shù)千年內(nèi)安全保存并精確恢復(fù),從而保證了這些重要數(shù)據(jù)的長期存儲。此外,DNA存儲還使得過去的健康數(shù)據(jù)更容易被未來的研究人員獲取,這對于縱向研究非常重要,因為它允許研究人員研究疾病的進展和治療效果。該工作提出了一種名為“EDS”的方法(圖2),通過三個關(guān)鍵組成部分實現(xiàn)了醫(yī)學(xué)MRI數(shù)據(jù)的歸檔。首先,研究團隊設(shè)計了一種新穎的分塊策略,解決了旋轉(zhuǎn)編碼導(dǎo)致的數(shù)據(jù)丟失問題。其次,提出了一種基于規(guī)則的四進制轉(zhuǎn)碼方法,滿足生化約束條件并確??煽康臄?shù)據(jù)映射。最后,設(shè)計了一種索引技術(shù),簡化了隨機搜索和訪問過程。

圖2. EDS方法流程圖
研究團隊提出了一種名為“DFS”的索引技術(shù),克服了DNA文件存儲中高額外開銷的挑戰(zhàn),旨在簡化DNA文件存儲的組織結(jié)構(gòu),實現(xiàn)靈活的隨機搜索、訪問和文件管理。
圖3中展示的正則標(biāo)簽(RT,一個堿基對)有效地幫助搜索特定的分塊(子圖像),將其與其他分塊區(qū)分開來。圖像被分割為16個分塊,每個分塊被分配了不同的基因標(biāo)簽,序列索引中設(shè)計了唯一的地址(4個堿基對),以精確定位和檢索所需的序列;此外,在隨機有效負(fù)載(平均長度為107個堿基對)之前添加了不同的標(biāo)簽(DT,四個堿基對),用于區(qū)分每個分塊的解碼二進制數(shù)據(jù),進而簡化了存儲數(shù)據(jù)的組織。

圖3. DFS技術(shù)示意圖
該工作在計算時間上也提出了新的方法,通過利用多進程技術(shù)優(yōu)化DNA存儲編碼流程,將編碼任務(wù)分解成多個子任務(wù),并分配多個CPU進行并行計算,提高編碼速率,實驗共測試了72GB的人體MRI數(shù)據(jù),完成編碼僅需9個小時,編碼時間效率提升明顯,同時基于數(shù)據(jù)進行了預(yù)測,1TB量級的數(shù)據(jù)在120 h能完成。通過計算機模擬和生物合成實驗證實,EDS方法在醫(yī)學(xué)MRI數(shù)據(jù)存儲方面表現(xiàn)出色,并且具有更好的生化約束控制和較短的計算時間。為醫(yī)學(xué)MRI數(shù)據(jù)的DNA存儲開辟了新的途徑。

圖4. 體內(nèi)合成驗證EDS 性能測試
這項研究成果為醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)存儲和檢索提供了新的可能性,具有重要的實際應(yīng)用前景。隨著進一步的研究和發(fā)展,DNA存儲技術(shù)有望成為醫(yī)學(xué)數(shù)據(jù)管理的重要工具,為醫(yī)學(xué)健康領(lǐng)域帶來更多的創(chuàng)新和進步。
中國科學(xué)院深圳先進技術(shù)研究院姜青山研究員、黃小羅研究員高級工程師,中國農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所戴俊彪研究員為該文章的通訊作者,博士生Abdur Rasool、碩士生洪經(jīng)緯為論文的共同第一作者。該研究獲得國家重點研發(fā)項目、深圳市科技項目等多個基金的資助。
附件下載: