中文字幕一区二区三区久久网站,亚洲熟妇无码八AV在线播放

Nucleic Acids Research | 基于深度學(xué)習(xí)與絕緣化原理的合成生物順式調(diào)控元件從頭設(shè)計(jì)

來(lái)源：合成所發(fā)布時(shí)間：2025-07-08【字體：大中小】

在合成生物學(xué)領(lǐng)域，科學(xué)家們希望能“編程”生命，實(shí)現(xiàn)可預(yù)測(cè)地設(shè)計(jì)基因元件（比如啟動(dòng)子、增強(qiáng)子）、蛋白質(zhì)等目標(biāo)，讓細(xì)胞按照人們預(yù)定的強(qiáng)度表達(dá)功能基因。近年來(lái)，人工智能（AI）特別是深度學(xué)習(xí)技術(shù)，成為這項(xiàng)工作的“新引擎”。通過(guò)分析實(shí)驗(yàn)數(shù)據(jù)，AI模型能預(yù)測(cè)哪些序列會(huì)帶來(lái)強(qiáng)或弱的基因表達(dá)，甚至能設(shè)計(jì)出全新的調(diào)控序列。

然而，這項(xiàng)技術(shù)存在一個(gè)長(zhǎng)期被低估的難題——“數(shù)據(jù)污染”。正如人們所討論的，大語(yǔ)言模型會(huì)受到網(wǎng)絡(luò)中“錯(cuò)誤信息”的污染，其本質(zhì)在于訓(xùn)練數(shù)據(jù)受到非目標(biāo)信息干擾，導(dǎo)致模型學(xué)習(xí)到錯(cuò)誤的規(guī)律。在常規(guī)生物實(shí)驗(yàn)中，研究者會(huì)在特定宿主細(xì)胞中對(duì)人工設(shè)計(jì)的序列進(jìn)行測(cè)試。但很多看起來(lái)“活躍”的序列，其活性實(shí)際上源于宿主細(xì)胞自身的意外激活，而非目標(biāo)元件本身的活性。把這類“污染”數(shù)據(jù)喂給AI模型，就如同教幼兒識(shí)字時(shí)混進(jìn)錯(cuò)別字，AI模型也會(huì)因此“學(xué)偏”，記住不應(yīng)有的規(guī)則。這不僅會(huì)導(dǎo)致模型的預(yù)測(cè)結(jié)果失真，還使其難以在不同物種間實(shí)現(xiàn)通用。

近日，中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院定量合成生物學(xué)全國(guó)重點(diǎn)實(shí)驗(yàn)室、合成生物學(xué)研究所婁春波課題組與清華大學(xué)自動(dòng)化系汪小我課題組合作開展的研究取得重要進(jìn)展。他們提出并驗(yàn)證了一項(xiàng)關(guān)鍵觀點(diǎn)：去除宿主細(xì)胞內(nèi)“污染語(yǔ)料”，是實(shí)現(xiàn)高精度模型預(yù)測(cè)及可控從頭設(shè)計(jì)順式基因元件的前提條件。相關(guān)成果以“De novo design of insulated cis-regulatory elements based on deep learning-predicted fitness landscape”為題發(fā)表在國(guó)際學(xué)術(shù)期刊Nucleic Acids Research上。

問(wèn)題發(fā)現(xiàn)：數(shù)據(jù)污染是模型“預(yù)測(cè)失靈”的根源

在利用深度學(xué)習(xí)設(shè)計(jì)基因調(diào)控元件的過(guò)程中，存在一個(gè)常被忽視但至關(guān)重要的問(wèn)題——宿主背景污染。研究團(tuán)隊(duì)在分析K1.5啟動(dòng)子系統(tǒng)的實(shí)驗(yàn)數(shù)據(jù)時(shí)發(fā)現(xiàn)：當(dāng)采用隨機(jī)序列篩選活性啟動(dòng)子時(shí)，許多看似“活躍”的序列，其活躍并非源于對(duì)目標(biāo)RNA聚合酶（K1.5 RNAP）的調(diào)控，而是因意外被宿主大腸桿菌自身的轉(zhuǎn)錄體系激活所致。

這類似于教AI識(shí)別蘋果圖片時(shí)，訓(xùn)練數(shù)據(jù)中混入了橘子圖片卻都標(biāo)注為 “蘋果”；在此情況下，AI模型學(xué)到的不是真正區(qū)分蘋果的特征，而是各種混雜的錯(cuò)誤模式。

研究人員通過(guò)深入分析發(fā)現(xiàn)，這種“宿主背景污染”并非個(gè)別現(xiàn)象，而是在宿主細(xì)胞中任意篩選隨機(jī)序列時(shí)普遍存在的問(wèn)題。在傳統(tǒng)體系里，順式調(diào)控元件必須和宿主的轉(zhuǎn)錄因子（比如RNA聚合酶、σ因子等）協(xié)同作用，因此隨機(jī)序列極易無(wú)意中激活宿主自身的調(diào)控機(jī)制，產(chǎn)生“偽陽(yáng)性”信號(hào)。

這類“非目標(biāo)”信號(hào)會(huì)對(duì)AI模型形成誤導(dǎo)，使得它學(xué)到的規(guī)律僅在特定宿主內(nèi)有效，無(wú)法遷移到其他物種或新的表達(dá)系統(tǒng)。要真正實(shí)現(xiàn)可預(yù)測(cè)、可遷移的功能元件設(shè)計(jì)，就必須從源頭上去掉此類背景干擾，建立一個(gè)真正“正交”（即彼此獨(dú)立、互不干擾）的表達(dá)系統(tǒng)，確保AI模型學(xué)到的調(diào)控規(guī)律具有純粹性、可解釋性和可泛化性。

為此，研究團(tuán)隊(duì)設(shè)計(jì)了一套“預(yù)測(cè)+實(shí)驗(yàn)雙重篩選”的數(shù)據(jù)凈化流程：首先通過(guò)模型預(yù)測(cè)識(shí)別并排除可能受宿主背景激活的序列，再借助雙通道誘導(dǎo)實(shí)驗(yàn)（有/無(wú)IPTG條件）進(jìn)一步篩掉對(duì)目標(biāo)RNA聚合酶無(wú)響應(yīng)的序列。最終，團(tuán)隊(duì)構(gòu)建出一個(gè)僅包含K1.5系統(tǒng)真實(shí)調(diào)控信息、宿主背景干擾最小化的高質(zhì)量數(shù)據(jù)集。

建模突破：構(gòu)建絕緣表達(dá)系統(tǒng)，繪制真實(shí)的全景觀活性功能

基于上述凈化后的高質(zhì)量數(shù)據(jù)集，研究團(tuán)隊(duì)訓(xùn)練了一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)模型。模型以DNA啟動(dòng)子序列的編碼作為輸入，以實(shí)驗(yàn)測(cè)得的表達(dá)強(qiáng)度作為輸出。

不同于傳統(tǒng)僅能給出結(jié)果預(yù)測(cè)的“黑箱”模型，團(tuán)隊(duì)通過(guò)特征可視化分析，成功繪制出“活性功能全景觀”。這一“景觀”可類比表達(dá)強(qiáng)度隨DNA序列變化的地形圖。模型能在該景觀里找到“局部高峰”（即表達(dá)強(qiáng)度最優(yōu)的序列模式），還能識(shí)別出關(guān)鍵的功能motif（序列片段），從而幫助解析基因調(diào)控的內(nèi)在規(guī)律。

一個(gè)極具意義的發(fā)現(xiàn)是：僅需大約1250條經(jīng)凈化的高質(zhì)量序列，即可把模型的表達(dá)強(qiáng)度預(yù)測(cè)精度做到R2=0.90。這表明數(shù)據(jù)的“純凈度”比規(guī)模更重要。該結(jié)果為后續(xù)利用生成模型設(shè)計(jì)新序列打下了堅(jiān)實(shí)的基礎(chǔ)。

在這一精準(zhǔn)的表達(dá)景觀模型基礎(chǔ)上，團(tuán)隊(duì)開發(fā)出真正的“從頭設(shè)計(jì)（de novo design）”策略。從完全隨機(jī)生成的DNA序列出發(fā)，利用模型預(yù)測(cè)到的“爬坡”方向，通過(guò)反向傳播和迭代優(yōu)化，持續(xù)調(diào)整堿基組成，讓序列在“表達(dá)景觀”中逐步攀升至目標(biāo)表達(dá)強(qiáng)度區(qū)域。

這一方法突破了以往以來(lái)天然模板、通過(guò)反復(fù)突變和篩選實(shí)現(xiàn)的“半理性設(shè)計(jì)”模式，實(shí)現(xiàn)了真正意義上的“從零生成”。實(shí)驗(yàn)驗(yàn)證顯示，該方法設(shè)計(jì)出的人工啟動(dòng)子其表達(dá)強(qiáng)度范圍廣泛覆蓋野生型水平，且預(yù)測(cè)值和實(shí)際測(cè)試結(jié)果高度一致，尤其在中高表達(dá)區(qū)的偏差極小，且設(shè)計(jì)出的不同序列之間差異顯著（Hamming距離大于10bp），有效規(guī)避了同源重組或序列冗余問(wèn)題，保證了多樣性和穩(wěn)定性。

功能驗(yàn)證：生成啟動(dòng)子在不同宿主中保持表達(dá)可預(yù)測(cè)性

為進(jìn)一步驗(yàn)證所設(shè)計(jì)調(diào)控元件的功能穩(wěn)定性與跨物種適應(yīng)性，研究團(tuán)隊(duì)將部分模型生成的啟動(dòng)子序列移植至哺乳動(dòng)物細(xì)胞系統(tǒng)中進(jìn)行表達(dá)測(cè)試。實(shí)驗(yàn)選取常用的中國(guó)倉(cāng)鼠卵巢細(xì)胞（CHO）為代表，在等效的啟動(dòng)子-RNAP組合條件下評(píng)估其表達(dá)活性。

結(jié)果顯示，這些已在大腸桿菌中驗(yàn)證的人工啟動(dòng)子，在CHO細(xì)胞中同樣呈現(xiàn)出與模型預(yù)測(cè)值基本一致的表達(dá)趨勢(shì)，其表達(dá)強(qiáng)度與模型預(yù)測(cè)結(jié)果間具有顯著線性相關(guān)性（R2 = 0.54）。盡管不同物種的表達(dá)背景存在差異，該結(jié)果仍表明，模型設(shè)計(jì)出的順式元件具備良好的表達(dá)可控性和宿主遷移能力，具備“跨宿主平臺(tái)”通用化應(yīng)用的潛力。

為評(píng)估該策略的系統(tǒng)適配性，研究團(tuán)隊(duì)進(jìn)一步將活性功能景觀建模與從頭設(shè)計(jì)方法拓展至T7 RNA聚合酶系統(tǒng)。作為經(jīng)典的合成表達(dá)平臺(tái)，T7系統(tǒng)具有較強(qiáng)的表達(dá)能力和廣泛的應(yīng)用基礎(chǔ)。研究顯示，所生成的T7啟動(dòng)子序列同樣實(shí)現(xiàn)了表達(dá)水平的可控設(shè)計(jì)，且與模型預(yù)測(cè)結(jié)果高度一致。這一結(jié)果驗(yàn)證了該方法不僅適用于K1.5系統(tǒng)，還具備向其他單因子驅(qū)動(dòng)、正交表達(dá)系統(tǒng)泛化的能力，為調(diào)控元件的模塊化設(shè)計(jì)與系統(tǒng)工程化打下了通用基礎(chǔ)。

本研究建立了一套面向順式調(diào)控元件的高通量、可解釋、跨系統(tǒng)泛化的從頭設(shè)計(jì)流程，有望解決以往因?yàn)樗拗鞅尘案蓴_導(dǎo)致的模型預(yù)測(cè)失真和遷移失敗這一長(zhǎng)期難題。通過(guò)結(jié)合絕緣型表征系統(tǒng)的構(gòu)建和深度學(xué)習(xí)預(yù)測(cè)模型，研究團(tuán)隊(duì)實(shí)現(xiàn)了從隨機(jī)序列到目標(biāo)功能啟動(dòng)子的精準(zhǔn)生成，并驗(yàn)證了其在不同RNA聚合酶系統(tǒng)和不同宿主細(xì)胞中的通用性。該成果為合成生物線路設(shè)計(jì)、跨物種基因回路構(gòu)建以及可編程細(xì)胞工廠的開發(fā)提供了全新解決方案，或?qū)⑼苿?dòng)AI驅(qū)動(dòng)的基因調(diào)控研究邁向真正的“功能級(jí)別智能設(shè)計(jì)”階段。

中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院研究員婁春波、清華大學(xué)教授汪小我為本文共同通訊作者。清華大學(xué)博士研究生王昊晨，中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院助理研究員項(xiàng)延會(huì)、研究助理劉子明為共同第一作者。研究工作得到了國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金、中國(guó)科學(xué)院青年交叉科學(xué)團(tuán)隊(duì)項(xiàng)目以及深圳合成生物學(xué)創(chuàng)新研究院等項(xiàng)目的聯(lián)合資助。

文章上線截圖

圖1 研究人員構(gòu)建的正交調(diào)控系統(tǒng)示意圖

圖2 從頭設(shè)計(jì)具有功能與序列多樣性的調(diào)控元件序列

圖3 從頭設(shè)計(jì)的絕緣型啟動(dòng)子在哺乳動(dòng)物細(xì)胞中的泛化評(píng)估及其在T7正交系統(tǒng)中的設(shè)計(jì)策略拓展

附件下載：

上一篇：Cell丨全球最快小鼠全身“高清CT”！單根神經(jīng)纖維清晰可見(jiàn)

下一篇：Science Advances | 揭示RNA m6A調(diào)控核糖體生成通路參與大腦發(fā)育新機(jī)制

野花中文免费观看6_国产人妻无码一区二区三区_野花免费观看日本电影_色老头xxxx_成人永久免费视频网站_男人女人做爽爽18禁网站_AV网址有哪些_最爱在线观看无删减_精品女同一区二区_人妻杨晓雯大战黑人续写

TOP