Nucleic Acids Research | 模型“領航”:開發(fā)跨物種轉錄元件智能設計平臺
如何精確設計并優(yōu)化基因線路,使其能在不同細菌宿主中穩(wěn)定、高效地工作,是合成生物學從“讀”到“寫”轉化的核心挑戰(zhàn)。長期以來,這一領域面臨著兩類方法論的制約:一是傳統(tǒng)的定向進化策略,其依賴于海量突變體的構建與篩選,不僅試錯成本高昂、耗時費力,而且難以澄清序列與功能的本質聯(lián)系;二是新興的基于深度學習的“黑箱”模型,雖然在訓練集覆蓋的數(shù)據(jù)范圍內預測表現(xiàn)優(yōu)異,但其高度依賴于海量數(shù)據(jù),且缺乏明確的生物物理學理論指引,導致其從頭設計(生成)新元件的精度往往一般,在面對新物種或新應用場景時也常面臨泛化能力不足的難題。
針對上述難點,近日,中國科學院深圳先進技術研究院定量合成生物學全國重點實驗室、合成生物學研究所研究員陳業(yè)團隊開發(fā)了名為T-Pro的統(tǒng)一計算框架,為原核生物轉錄調控提供了模塊化、可擴展的定量設計解決方案。相關成果于2026年1月以"A unified computational framework for quantitative design and optimization of transcriptional regulation across bacterial species"為題,發(fā)表于國際權威期刊《核酸研究》(Nucleic Acids Research)。
該框架不僅實現(xiàn)了跨物種的轉錄調控優(yōu)化,更在設計理念上實現(xiàn)了以下三大創(chuàng)新:
1. 生物物理模型驅動的數(shù)據(jù)高效性:通過熱力學原理將復雜的轉錄調控過程解耦為獨立的生物物理參數(shù)(如啟動子結合能、轉錄因子協(xié)同能等),大幅降低了模型訓練過程對實驗數(shù)據(jù)量的依賴,僅需少量數(shù)據(jù)即可實現(xiàn)精準預測;
2. “白箱”機制指引理性設計:模型能夠識別限制系統(tǒng)性能的“瓶頸”參數(shù)(如轉錄因子與聚合酶的協(xié)同作用能EAP或自發(fā)寡聚化反應平衡常數(shù)K1),為后續(xù)優(yōu)化提供了明確的物理導向——既可直接指導理性設計,也能為“黑箱”模型或進化篩選提供明確的優(yōu)化目標;
3. 高度的兼容性與擴展性:作為一個開放式平臺,T-Pro具備優(yōu)異的兼容性,能夠靈活融合多種類型的機器學習模型與生物物理模型,兼顧了機理的可解釋性與AI的計算潛力。
挑戰(zhàn)與突破:從“盲目試錯”到“精準導航”
細菌在自然進化中演化出精密的基因表達調控網(wǎng)絡,其內在復雜性往往成為合成生物學工程設計的“黑障”。研究者在進行啟動子或轉錄因子的跨宿主移植時,常因胞內環(huán)境差異引發(fā)元件互作模式改變,進而面臨性能嚴重衰減的難題。為突破這一瓶頸,該研究摒棄了傳統(tǒng)的“覆蓋式篩選”和純粹的“黑箱預測”路徑,創(chuàng)新地提出了一套融合“白箱”物理機理與全局約束條件的建模與優(yōu)化框架。
這一工作在理論層面上實現(xiàn)了重要延展——證明了團隊此前在大腸桿菌中建立的模塊化設計范式(Chen?et al., Nat. Commun.?2018)并非孤例,而是能有效拓展至枯草芽孢桿菌和谷氨酸棒狀桿菌等親緣關系較遠的底盤生物中;同時,更深刻證實了轉錄調控“參數(shù)分離特征”在不同物種間的普適性?;诘谝恍栽恚瑘F隊精準解析了微觀物理參數(shù)與宏觀調控性能之間的定量映射關系。在此基礎上,T-Pro平臺展現(xiàn)出獨特的“診斷”與“導航”能力:
診斷(解耦與定量):該研究中使用的統(tǒng)一熱力學模型將啟動子強度(EP)、轉錄因子結合能(EA或?ER)以及協(xié)同激活作用(EAP)等關鍵變量分離并參數(shù)化,使得研究人員不再需要像傳統(tǒng)機器學習那樣依賴成千上萬條數(shù)據(jù)來“喂養(yǎng)”模型,而是通過少量的“設計-構建-測試-學習(DBTL)”循環(huán)即可快速鎖定系統(tǒng)參數(shù)。
導航(瓶頸識別):模型不僅能預測結果,還能指出“為什么”。例如,團隊利用該模型發(fā)現(xiàn):部分激活型轉錄因子性能的關鍵因素在于其與RNA聚合酶的協(xié)同作用過弱(EAP過低)或自發(fā)二聚化過強(K1過高)?;谶@一物理機制的指引,團隊針對性地改造了天然轉錄因子BjaR的結構、使其轉錄激活能力提升了約7倍,這充分展示了物理模型指導下理性設計的威力。
應用驗證:跨物種性能大幅優(yōu)化與復雜通訊線路構建
該框架的強大能力在兩項關鍵應用中得到了充分驗證。首先是跨物種轉錄元件性能的快速大幅優(yōu)化:在三種親緣關系較遠的細菌(大腸桿菌、枯草芽孢桿菌、谷氨酸棒桿菌)中,團隊利用T-Pro針對特定的群體感應(QS)系統(tǒng)開展宿主特異性優(yōu)化,實現(xiàn)了高達20倍的性能提升。
其次是復雜通訊線路的構建:基于優(yōu)化后的元件,團隊成功構建了包含“發(fā)送者-傳感器-報告器”的人工細菌群體通訊網(wǎng)絡。實驗結果表明,這些經(jīng)T-Pro優(yōu)化的線路能夠克服跨物種移植時的“水土不服”,在三種不同底盤中實現(xiàn)了高效、低泄漏的信號級聯(lián)與中繼,解決了基因元件在跨宿主移植時性能下降的經(jīng)典難題。
未來展望
本研究建立的T-Pro計算框架為合成生物學領域提供了一個強大的底層設計工具。它將生物物理機制轉化為可計算、可優(yōu)化的參數(shù),使轉錄調控系統(tǒng)的理性設計與跨宿主工程化成為可能。這一突破不僅可立即應用于代謝工程、生物傳感等領域的基因線路優(yōu)化,降低研發(fā)成本與周期,也為未來設計更加復雜、智能且能適配多種底盤細胞的合成生物系統(tǒng)奠定了方法論的基礎。
中國科學院深圳先進技術研究院定量合成生物學全國重點實驗室、合成生物學研究所博士生汪天澤、研究助理謝榮輝為本文共同第一作者;研究員陳業(yè)為本文的通訊作者。本研究得到了中國科學院戰(zhàn)略性先導科技專項、國家重點研發(fā)計劃、國家自然科學基金以及深圳合成生物學創(chuàng)新研究院等項目的支持。

圖1. 文章上線截圖

圖2. T-Pro平臺優(yōu)化過程示意圖

圖3. T-Pro實現(xiàn)不同物種下不同轉錄調控系統(tǒng)的優(yōu)化

圖4. T-Pro指導下實現(xiàn)三種不同底盤的信號通訊
附件下載: