Small Methods | 一種用于歸檔和檢索醫(yī)學(xué)磁共振成像數(shù)據(jù)的高效DNA存儲(chǔ)系統(tǒng)
近日,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院姜青山研究員、黃小羅高級(jí)工程師、中國(guó)農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所戴俊彪研究員等聯(lián)合在國(guó)際學(xué)術(shù)期刊Small Methods (IF=12.4)上發(fā)表了題為An Effective DNA-Based File Storage System for Practical Archiving and Retrieval of Medical MRI Data的研究文章(圖1)。
文章中設(shè)計(jì)了一種名為"EDS"的DNA存儲(chǔ)方法,通過改進(jìn)編碼模型、引入冗余核苷酸和設(shè)計(jì)索引技術(shù),實(shí)現(xiàn)了醫(yī)學(xué)MRI數(shù)據(jù)的可靠歸檔和檢索。

圖1. 文章上線截圖
文章鏈接:https://doi.org/10.1002/smtd.202301585
醫(yī)學(xué)MRI數(shù)據(jù)是診斷、治療規(guī)劃和疾病監(jiān)測(cè)等多種領(lǐng)域的重要工具。利用DNA存儲(chǔ)技術(shù)保存醫(yī)學(xué)MRI數(shù)據(jù)將有助于人類健康管理。通過DNA存儲(chǔ),可以確保這些重要數(shù)據(jù)在數(shù)千年內(nèi)安全保存并精確恢復(fù),從而保證了這些重要數(shù)據(jù)的長(zhǎng)期存儲(chǔ)。此外,DNA存儲(chǔ)還使得過去的健康數(shù)據(jù)更容易被未來(lái)的研究人員獲取,這對(duì)于縱向研究非常重要,因?yàn)樗试S研究人員研究疾病的進(jìn)展和治療效果。該工作提出了一種名為“EDS”的方法(圖2),通過三個(gè)關(guān)鍵組成部分實(shí)現(xiàn)了醫(yī)學(xué)MRI數(shù)據(jù)的歸檔。首先,研究團(tuán)隊(duì)設(shè)計(jì)了一種新穎的分塊策略,解決了旋轉(zhuǎn)編碼導(dǎo)致的數(shù)據(jù)丟失問題。其次,提出了一種基于規(guī)則的四進(jìn)制轉(zhuǎn)碼方法,滿足生化約束條件并確??煽康臄?shù)據(jù)映射。最后,設(shè)計(jì)了一種索引技術(shù),簡(jiǎn)化了隨機(jī)搜索和訪問過程。

圖2. EDS方法流程圖
研究團(tuán)隊(duì)提出了一種名為“DFS”的索引技術(shù),克服了DNA文件存儲(chǔ)中高額外開銷的挑戰(zhàn),旨在簡(jiǎn)化DNA文件存儲(chǔ)的組織結(jié)構(gòu),實(shí)現(xiàn)靈活的隨機(jī)搜索、訪問和文件管理。
圖3中展示的正則標(biāo)簽(RT,一個(gè)堿基對(duì))有效地幫助搜索特定的分塊(子圖像),將其與其他分塊區(qū)分開來(lái)。圖像被分割為16個(gè)分塊,每個(gè)分塊被分配了不同的基因標(biāo)簽,序列索引中設(shè)計(jì)了唯一的地址(4個(gè)堿基對(duì)),以精確定位和檢索所需的序列;此外,在隨機(jī)有效負(fù)載(平均長(zhǎng)度為107個(gè)堿基對(duì))之前添加了不同的標(biāo)簽(DT,四個(gè)堿基對(duì)),用于區(qū)分每個(gè)分塊的解碼二進(jìn)制數(shù)據(jù),進(jìn)而簡(jiǎn)化了存儲(chǔ)數(shù)據(jù)的組織。

圖3. DFS技術(shù)示意圖
該工作在計(jì)算時(shí)間上也提出了新的方法,通過利用多進(jìn)程技術(shù)優(yōu)化DNA存儲(chǔ)編碼流程,將編碼任務(wù)分解成多個(gè)子任務(wù),并分配多個(gè)CPU進(jìn)行并行計(jì)算,提高編碼速率,實(shí)驗(yàn)共測(cè)試了72GB的人體MRI數(shù)據(jù),完成編碼僅需9個(gè)小時(shí),編碼時(shí)間效率提升明顯,同時(shí)基于數(shù)據(jù)進(jìn)行了預(yù)測(cè),1TB量級(jí)的數(shù)據(jù)在120 h能完成。通過計(jì)算機(jī)模擬和生物合成實(shí)驗(yàn)證實(shí),EDS方法在醫(yī)學(xué)MRI數(shù)據(jù)存儲(chǔ)方面表現(xiàn)出色,并且具有更好的生化約束控制和較短的計(jì)算時(shí)間。為醫(yī)學(xué)MRI數(shù)據(jù)的DNA存儲(chǔ)開辟了新的途徑。

圖4. 體內(nèi)合成驗(yàn)證EDS 性能測(cè)試
這項(xiàng)研究成果為醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)存儲(chǔ)和檢索提供了新的可能性,具有重要的實(shí)際應(yīng)用前景。隨著進(jìn)一步的研究和發(fā)展,DNA存儲(chǔ)技術(shù)有望成為醫(yī)學(xué)數(shù)據(jù)管理的重要工具,為醫(yī)學(xué)健康領(lǐng)域帶來(lái)更多的創(chuàng)新和進(jìn)步。
中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院姜青山研究員、黃小羅研究員高級(jí)工程師,中國(guó)農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所戴俊彪研究員為該文章的通訊作者,博士生Abdur Rasool、碩士生洪經(jīng)緯為論文的共同第一作者。該研究獲得國(guó)家重點(diǎn)研發(fā)項(xiàng)目、深圳市科技項(xiàng)目等多個(gè)基金的資助。
附件下載: