Nucleic Acids Research | 基于深度學(xué)習(xí)與絕緣化原理的合成生物順式調(diào)控元件從頭設(shè)計(jì)
在合成生物學(xué)領(lǐng)域,科學(xué)家們希望能“編程”生命,實(shí)現(xiàn)可預(yù)測地設(shè)計(jì)基因元件(比如啟動子、增強(qiáng)子)、蛋白質(zhì)等目標(biāo),讓細(xì)胞按照人們預(yù)定的強(qiáng)度表達(dá)功能基因。近年來,人工智能(AI)特別是深度學(xué)習(xí)技術(shù),成為這項(xiàng)工作的“新引擎”。通過分析實(shí)驗(yàn)數(shù)據(jù),AI模型能預(yù)測哪些序列會帶來強(qiáng)或弱的基因表達(dá),甚至能設(shè)計(jì)出全新的調(diào)控序列。
然而,這項(xiàng)技術(shù)存在一個長期被低估的難題——“數(shù)據(jù)污染”。正如人們所討論的,大語言模型會受到網(wǎng)絡(luò)中“錯誤信息”的污染,其本質(zhì)在于訓(xùn)練數(shù)據(jù)受到非目標(biāo)信息干擾,導(dǎo)致模型學(xué)習(xí)到錯誤的規(guī)律。在常規(guī)生物實(shí)驗(yàn)中,研究者會在特定宿主細(xì)胞中對人工設(shè)計(jì)的序列進(jìn)行測試。但很多看起來“活躍”的序列,其活性實(shí)際上源于宿主細(xì)胞自身的意外激活,而非目標(biāo)元件本身的活性。把這類“污染”數(shù)據(jù)喂給AI模型,就如同教幼兒識字時混進(jìn)錯別字,AI模型也會因此“學(xué)偏”,記住不應(yīng)有的規(guī)則。這不僅會導(dǎo)致模型的預(yù)測結(jié)果失真,還使其難以在不同物種間實(shí)現(xiàn)通用。
近日,中國科學(xué)院深圳先進(jìn)技術(shù)研究院定量合成生物學(xué)全國重點(diǎn)實(shí)驗(yàn)室、合成生物學(xué)研究所婁春波課題組與清華大學(xué)自動化系汪小我課題組合作開展的研究取得重要進(jìn)展。他們提出并驗(yàn)證了一項(xiàng)關(guān)鍵觀點(diǎn):去除宿主細(xì)胞內(nèi)“污染語料”,是實(shí)現(xiàn)高精度模型預(yù)測及可控從頭設(shè)計(jì)順式基因元件的前提條件。相關(guān)成果以“De novo design of insulated cis-regulatory elements based on deep learning-predicted fitness landscape”為題發(fā)表在國際學(xué)術(shù)期刊Nucleic Acids Research上。
問題發(fā)現(xiàn):數(shù)據(jù)污染是模型“預(yù)測失靈”的根源
在利用深度學(xué)習(xí)設(shè)計(jì)基因調(diào)控元件的過程中,存在一個常被忽視但至關(guān)重要的問題——宿主背景污染。研究團(tuán)隊(duì)在分析K1.5啟動子系統(tǒng)的實(shí)驗(yàn)數(shù)據(jù)時發(fā)現(xiàn):當(dāng)采用隨機(jī)序列篩選活性啟動子時,許多看似“活躍”的序列,其活躍并非源于對目標(biāo)RNA聚合酶(K1.5 RNAP)的調(diào)控,而是因意外被宿主大腸桿菌自身的轉(zhuǎn)錄體系激活所致。
這類似于教AI識別蘋果圖片時,訓(xùn)練數(shù)據(jù)中混入了橘子圖片卻都標(biāo)注為 “蘋果”;在此情況下,AI模型學(xué)到的不是真正區(qū)分蘋果的特征,而是各種混雜的錯誤模式。
研究人員通過深入分析發(fā)現(xiàn),這種“宿主背景污染”并非個別現(xiàn)象,而是在宿主細(xì)胞中任意篩選隨機(jī)序列時普遍存在的問題。在傳統(tǒng)體系里,順式調(diào)控元件必須和宿主的轉(zhuǎn)錄因子(比如RNA聚合酶、σ因子等)協(xié)同作用,因此隨機(jī)序列極易無意中激活宿主自身的調(diào)控機(jī)制,產(chǎn)生“偽陽性”信號。
這類“非目標(biāo)”信號會對AI模型形成誤導(dǎo),使得它學(xué)到的規(guī)律僅在特定宿主內(nèi)有效,無法遷移到其他物種或新的表達(dá)系統(tǒng)。要真正實(shí)現(xiàn)可預(yù)測、可遷移的功能元件設(shè)計(jì),就必須從源頭上去掉此類背景干擾,建立一個真正“正交”(即彼此獨(dú)立、互不干擾)的表達(dá)系統(tǒng),確保AI模型學(xué)到的調(diào)控規(guī)律具有純粹性、可解釋性和可泛化性。
為此,研究團(tuán)隊(duì)設(shè)計(jì)了一套“預(yù)測+實(shí)驗(yàn)雙重篩選”的數(shù)據(jù)凈化流程:首先通過模型預(yù)測識別并排除可能受宿主背景激活的序列,再借助雙通道誘導(dǎo)實(shí)驗(yàn)(有/無IPTG條件)進(jìn)一步篩掉對目標(biāo)RNA聚合酶無響應(yīng)的序列。最終,團(tuán)隊(duì)構(gòu)建出一個僅包含K1.5系統(tǒng)真實(shí)調(diào)控信息、宿主背景干擾最小化的高質(zhì)量數(shù)據(jù)集。
建模突破:構(gòu)建絕緣表達(dá)系統(tǒng),繪制真實(shí)的全景觀活性功能
基于上述凈化后的高質(zhì)量數(shù)據(jù)集,研究團(tuán)隊(duì)訓(xùn)練了一個深度卷積神經(jīng)網(wǎng)絡(luò)模型。模型以DNA啟動子序列的編碼作為輸入,以實(shí)驗(yàn)測得的表達(dá)強(qiáng)度作為輸出。
不同于傳統(tǒng)僅能給出結(jié)果預(yù)測的“黑箱”模型,團(tuán)隊(duì)通過特征可視化分析,成功繪制出“活性功能全景觀”。這一“景觀”可類比表達(dá)強(qiáng)度隨DNA序列變化的地形圖。模型能在該景觀里找到“局部高峰”(即表達(dá)強(qiáng)度最優(yōu)的序列模式),還能識別出關(guān)鍵的功能motif(序列片段),從而幫助解析基因調(diào)控的內(nèi)在規(guī)律。
一個極具意義的發(fā)現(xiàn)是:僅需大約1250條經(jīng)凈化的高質(zhì)量序列,即可把模型的表達(dá)強(qiáng)度預(yù)測精度做到R2=0.90。這表明數(shù)據(jù)的“純凈度”比規(guī)模更重要。該結(jié)果為后續(xù)利用生成模型設(shè)計(jì)新序列打下了堅(jiān)實(shí)的基礎(chǔ)。
在這一精準(zhǔn)的表達(dá)景觀模型基礎(chǔ)上,團(tuán)隊(duì)開發(fā)出真正的“從頭設(shè)計(jì)(de novo design)”策略。從完全隨機(jī)生成的DNA序列出發(fā),利用模型預(yù)測到的“爬坡”方向,通過反向傳播和迭代優(yōu)化,持續(xù)調(diào)整堿基組成,讓序列在“表達(dá)景觀”中逐步攀升至目標(biāo)表達(dá)強(qiáng)度區(qū)域。
這一方法突破了以往以來天然模板、通過反復(fù)突變和篩選實(shí)現(xiàn)的“半理性設(shè)計(jì)”模式,實(shí)現(xiàn)了真正意義上的“從零生成”。實(shí)驗(yàn)驗(yàn)證顯示,該方法設(shè)計(jì)出的人工啟動子其表達(dá)強(qiáng)度范圍廣泛覆蓋野生型水平,且預(yù)測值和實(shí)際測試結(jié)果高度一致,尤其在中高表達(dá)區(qū)的偏差極小,且設(shè)計(jì)出的不同序列之間差異顯著(Hamming距離大于10bp),有效規(guī)避了同源重組或序列冗余問題,保證了多樣性和穩(wěn)定性。
功能驗(yàn)證:生成啟動子在不同宿主中保持表達(dá)可預(yù)測性
為進(jìn)一步驗(yàn)證所設(shè)計(jì)調(diào)控元件的功能穩(wěn)定性與跨物種適應(yīng)性,研究團(tuán)隊(duì)將部分模型生成的啟動子序列移植至哺乳動物細(xì)胞系統(tǒng)中進(jìn)行表達(dá)測試。實(shí)驗(yàn)選取常用的中國倉鼠卵巢細(xì)胞(CHO)為代表,在等效的啟動子-RNAP組合條件下評估其表達(dá)活性。
結(jié)果顯示,這些已在大腸桿菌中驗(yàn)證的人工啟動子,在CHO細(xì)胞中同樣呈現(xiàn)出與模型預(yù)測值基本一致的表達(dá)趨勢,其表達(dá)強(qiáng)度與模型預(yù)測結(jié)果間具有顯著線性相關(guān)性(R2 = 0.54)。盡管不同物種的表達(dá)背景存在差異,該結(jié)果仍表明,模型設(shè)計(jì)出的順式元件具備良好的表達(dá)可控性和宿主遷移能力,具備“跨宿主平臺”通用化應(yīng)用的潛力。
為評估該策略的系統(tǒng)適配性,研究團(tuán)隊(duì)進(jìn)一步將活性功能景觀建模與從頭設(shè)計(jì)方法拓展至T7 RNA聚合酶系統(tǒng)。作為經(jīng)典的合成表達(dá)平臺,T7系統(tǒng)具有較強(qiáng)的表達(dá)能力和廣泛的應(yīng)用基礎(chǔ)。研究顯示,所生成的T7啟動子序列同樣實(shí)現(xiàn)了表達(dá)水平的可控設(shè)計(jì),且與模型預(yù)測結(jié)果高度一致。這一結(jié)果驗(yàn)證了該方法不僅適用于K1.5系統(tǒng),還具備向其他單因子驅(qū)動、正交表達(dá)系統(tǒng)泛化的能力,為調(diào)控元件的模塊化設(shè)計(jì)與系統(tǒng)工程化打下了通用基礎(chǔ)。
本研究建立了一套面向順式調(diào)控元件的高通量、可解釋、跨系統(tǒng)泛化的從頭設(shè)計(jì)流程,有望解決以往因?yàn)樗拗鞅尘案蓴_導(dǎo)致的模型預(yù)測失真和遷移失敗這一長期難題。通過結(jié)合絕緣型表征系統(tǒng)的構(gòu)建和深度學(xué)習(xí)預(yù)測模型,研究團(tuán)隊(duì)實(shí)現(xiàn)了從隨機(jī)序列到目標(biāo)功能啟動子的精準(zhǔn)生成,并驗(yàn)證了其在不同RNA聚合酶系統(tǒng)和不同宿主細(xì)胞中的通用性。該成果為合成生物線路設(shè)計(jì)、跨物種基因回路構(gòu)建以及可編程細(xì)胞工廠的開發(fā)提供了全新解決方案,或?qū)⑼苿覣I驅(qū)動的基因調(diào)控研究邁向真正的“功能級別智能設(shè)計(jì)”階段。
中國科學(xué)院深圳先進(jìn)技術(shù)研究院研究員婁春波、清華大學(xué)教授汪小我為本文共同通訊作者。清華大學(xué)博士研究生王昊晨,中國科學(xué)院深圳先進(jìn)技術(shù)研究院助理研究員項(xiàng)延會、研究助理劉子明為共同第一作者。研究工作得到了國家重點(diǎn)研發(fā)計(jì)劃、國家自然科學(xué)基金、中國科學(xué)院青年交叉科學(xué)團(tuán)隊(duì)項(xiàng)目以及深圳合成生物學(xué)創(chuàng)新研究院等項(xiàng)目的聯(lián)合資助。

文章上線截圖

圖1 研究人員構(gòu)建的正交調(diào)控系統(tǒng)示意圖

圖2 從頭設(shè)計(jì)具有功能與序列多樣性的調(diào)控元件序列

圖3 從頭設(shè)計(jì)的絕緣型啟動子在哺乳動物細(xì)胞中的泛化評估及其在T7正交系統(tǒng)中的設(shè)計(jì)策略拓展
附件下載: