Advanced Science | 自動(dòng)化+機(jī)器學(xué)習(xí)攻克代謝途徑改造不確定性的技術(shù)壁壘
北京時(shí)間2月6日,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院合成所羅小舟團(tuán)隊(duì)與Jay D. Keasling團(tuán)隊(duì)合作在Advanced Science發(fā)表題為Pathway evolution through a bottlenecking-debottlenecking strategy and machine learning-aided flux balancing的文章。
這項(xiàng)研究旨在解決代謝途徑工程中的一個(gè)關(guān)鍵性問(wèn)題:基因上位效應(yīng)限制了其進(jìn)化潛力和適應(yīng)性,導(dǎo)致進(jìn)化過(guò)程的不確定性。例如,一個(gè)酶的微小改造可能會(huì)使另一個(gè)酶成為途徑的瓶頸,這可能需要數(shù)千年才能增強(qiáng)或開(kāi)發(fā)新功能。因此,如何以更少的進(jìn)化時(shí)間和迭代次數(shù)達(dá)到數(shù)千年自然進(jìn)化過(guò)程所需的效果,一直是該領(lǐng)域研究的難點(diǎn)。針對(duì)上述問(wèn)題,研究團(tuán)隊(duì)利用自動(dòng)化大設(shè)施平臺(tái)技術(shù),確定可控的進(jìn)化軌跡,實(shí)現(xiàn)了代謝通路多個(gè)關(guān)鍵性基因的自動(dòng)化同步進(jìn)化。該研究還搭載了ProEnsemble機(jī)器學(xué)習(xí)框架,進(jìn)一步緩解了進(jìn)化途徑各基因間的上位效應(yīng)影響,進(jìn)而創(chuàng)造了一個(gè)高效的通用型底盤(pán)來(lái)合成黃酮化合物。這項(xiàng)工作(DOI: 10.1002/advs.202306935)可以有效克服代謝途徑進(jìn)化不確定性的技術(shù)難題。這是羅小舟團(tuán)隊(duì)在2023年開(kāi)發(fā)酶挖掘與進(jìn)化的UniKP大語(yǔ)言模型框架后(Nat. Commun. 2023),在IT和BT交叉領(lǐng)域的又一重要進(jìn)展。這項(xiàng)研究還融合了自動(dòng)化技術(shù)和機(jī)器學(xué)習(xí)技術(shù)的優(yōu)勢(shì),可以顯著提高底盤(pán)開(kāi)發(fā)的速度和效率,減少研發(fā)時(shí)間,降低經(jīng)濟(jì)成本。這也為推進(jìn)生物智能制造領(lǐng)域的發(fā)展,提供了前沿的技術(shù)路線和全新的解決方案。
探秘代謝途徑進(jìn)化“速度之謎”:基因上位效應(yīng)是否存在?
在本項(xiàng)研究中,研究團(tuán)隊(duì)試圖解決一個(gè)合成生物學(xué)領(lǐng)域的科學(xué)問(wèn)題:如何在特定的進(jìn)化軌跡中獲得最優(yōu)的突變組合。但是,不同突變組合在不同的背景下會(huì)呈現(xiàn)出不同的表現(xiàn),該種現(xiàn)象稱為基因上位效應(yīng)。這種效應(yīng)將導(dǎo)致途徑進(jìn)化的不確定性,限制進(jìn)化潛力和適應(yīng)性。為了驗(yàn)證這個(gè)現(xiàn)象,研究團(tuán)隊(duì)以柚皮素代謝途徑為例,首先確定了TAL有義突變體,然后在不同的基因組合背景下評(píng)估了其適應(yīng)性,最終證實(shí)了基因上位效應(yīng)在代謝途徑進(jìn)化過(guò)程中的普遍存在。
首先,將TAL基因放置于不同拷貝數(shù)、弱啟動(dòng)子質(zhì)粒,其余關(guān)鍵性代謝基因維持原質(zhì)粒(圖1),發(fā)現(xiàn)當(dāng)TAL基因被放置在中高拷貝數(shù)質(zhì)粒ColE1時(shí)能獲得最高柚皮素產(chǎn)量。然而,在該背景質(zhì)粒下,直接篩選TAL的隨機(jī)突變庫(kù)時(shí),未能獲得產(chǎn)量更高的有義突變體,揭示了復(fù)雜的基因上位效應(yīng)可能誘發(fā)途徑進(jìn)化陷入局部最優(yōu)解。為解決該問(wèn)題,該團(tuán)隊(duì)將TAL隨機(jī)突變庫(kù)置于低拷貝數(shù)質(zhì)粒,以創(chuàng)造一個(gè)人工代謝瓶頸,確保TAL的表達(dá)和活性是限制柚皮素產(chǎn)量的唯一因素。在這種情況下,突變體的進(jìn)化軌跡更為清晰,在產(chǎn)量達(dá)到其本身在中高拷貝數(shù)質(zhì)粒上所能達(dá)到的最高產(chǎn)量之前,理論上不會(huì)遇到中間體毒性或復(fù)雜調(diào)控等問(wèn)題而導(dǎo)致進(jìn)化的不確定性問(wèn)題。基于此,研究團(tuán)隊(duì)獲得了7株在該背景下能顯著提升柚皮素產(chǎn)量的TAL突變體,并確認(rèn)了其突變位點(diǎn)。隨后,將野生型TAL及7種變體放置于中高質(zhì)粒,發(fā)現(xiàn)所有TAL變體的柚皮素產(chǎn)量均低于其野生型的最高產(chǎn)量(357.66 mg/L)。上述結(jié)果證實(shí)了TAL基因置于中高拷貝數(shù)質(zhì)粒(如ColE1 origin)時(shí),基因上位效應(yīng)可能會(huì)掩蓋柚皮素的有義突變體,導(dǎo)致代謝途徑在直接進(jìn)化中往往只能達(dá)到次優(yōu)水平;這也解釋了途徑進(jìn)化常出現(xiàn)微小或無(wú)明顯效果的原因。
自動(dòng)化平臺(tái)加速代謝途徑同步進(jìn)化:開(kāi)辟酶活性與適應(yīng)性新視野
改變外部環(huán)境可重塑途徑進(jìn)化適應(yīng)度特性,解決代謝途徑進(jìn)化陷入局部最優(yōu)解的困局。因此,研究團(tuán)隊(duì)逐個(gè)降低各關(guān)鍵基因表達(dá)水平,進(jìn)而改變代謝途徑關(guān)鍵性基因進(jìn)化的適應(yīng)性。為了達(dá)成同步自動(dòng)化輔助酶進(jìn)化,研究團(tuán)隊(duì)還進(jìn)行了如下設(shè)計(jì):1)僅用終產(chǎn)物柚皮素響應(yīng)的分子探針系統(tǒng)作為評(píng)估途徑代謝能力的標(biāo)準(zhǔn),以實(shí)現(xiàn)統(tǒng)一的篩選方法;2)搭載自動(dòng)化大設(shè)施平臺(tái)技術(shù),在清晰進(jìn)化軌跡內(nèi)實(shí)現(xiàn)各基因同步、迭代進(jìn)化。
該自動(dòng)化大設(shè)施平臺(tái)2周內(nèi)可實(shí)現(xiàn)挑菌、培養(yǎng)、突變庫(kù)篩選、備選突變體產(chǎn)物提取等常規(guī)流程,整個(gè)操作與手工操作并無(wú)差異,證實(shí)了自動(dòng)化大設(shè)施平臺(tái)在代謝途徑進(jìn)化過(guò)程中的可靠性和準(zhǔn)確性。此外,該平臺(tái)通量可達(dá)到1.1萬(wàn)克隆子分選/次,即單次流程可同步進(jìn)化2個(gè)基因(5000克隆子/每個(gè)基因/單次)或進(jìn)化1個(gè)基因(10000克隆子/每個(gè)基因/單次)。
隨后,該自動(dòng)化大設(shè)施平臺(tái)技術(shù)實(shí)現(xiàn)了4CL和CHS基因在清晰進(jìn)化軌跡內(nèi)的定向進(jìn)化(圖2):低水平表達(dá)各基因(低拷貝數(shù)背景)為進(jìn)化起點(diǎn),即人工瓶頸狀態(tài);隨拷貝數(shù)增強(qiáng),柚皮素產(chǎn)量達(dá)到最高閾值,即為該酶能進(jìn)化到的最低閾值狀態(tài)(人工瓶頸解除狀態(tài))。最終,分別從約5000個(gè)克隆子庫(kù)中篩選到12和57個(gè)4CL和CHS突變體,對(duì)其最高的5和2個(gè)突變體分別進(jìn)行產(chǎn)量和突變位點(diǎn)分析。4CL-11C1和CHS-9H9柚皮素產(chǎn)量與其對(duì)應(yīng)的人工瓶頸解除狀態(tài)相似,展示了在清晰軌跡范圍內(nèi)人工瓶頸創(chuàng)造與解除策略可實(shí)現(xiàn)代謝途徑高效進(jìn)化,也進(jìn)一步證實(shí)了上位效應(yīng)可能會(huì)限制途徑進(jìn)化的邊界。此外,4CL-11C1與CHS-9H9的kcat/KM值比其野生型分別顯著增強(qiáng)了2.07倍與4.16倍(表1)。部分TAL與CHS突變位點(diǎn)不在催化核心,揭示了利用高通量自動(dòng)化大設(shè)施平臺(tái)技術(shù)可高效探尋理性設(shè)計(jì)難以預(yù)測(cè)的潛在活性遠(yuǎn)端位點(diǎn)。該發(fā)現(xiàn)顛覆了傳統(tǒng)理性設(shè)計(jì)預(yù)期,也為我們提供了一個(gè)新視角:高通量自動(dòng)化大設(shè)施平臺(tái)技術(shù)可用于探索之前未知的、與酶活或特異性有關(guān)的關(guān)鍵性位點(diǎn),有助于推動(dòng)生物工程和藥物設(shè)計(jì)等領(lǐng)域發(fā)展,為我們提供了解鎖酶潛能和拓展生物催化應(yīng)用范圍的新鑰匙。
揭秘基因上位效應(yīng):重塑代謝途徑的進(jìn)化與適應(yīng)性
為進(jìn)一步解密基因上位效應(yīng)是否普遍存在、且是否會(huì)造成代謝途徑進(jìn)化不確定性等問(wèn)題,研究團(tuán)隊(duì)對(duì)各基因的野生型和有益突變體進(jìn)行了交叉配對(duì)并評(píng)估了各工程菌柚皮素合成能力(圖3與4)。結(jié)果顯示,在4CL和CHS野生型基因組合背景下,所有TAL突變體柚皮素產(chǎn)量顯著降低;而在4CL和CHS突變體組合背景下,野生型TAL柚皮素產(chǎn)量略微增強(qiáng)(圖4)。此外,還發(fā)現(xiàn)了不同基因上位效應(yīng)現(xiàn)象:如TAL-26E7和TAL-28D11 與4CL-11C1和CHS-9H9突變體展現(xiàn)出較強(qiáng)的符合上位效應(yīng)(sign epistasis);其余TAL突變體呈現(xiàn)出正上位效應(yīng)(positive epistasis);4CL-11C1與TAL-26E7和CHS-9H9突變體呈現(xiàn)出負(fù)上位效應(yīng)(negative epistasis);CHS-9H9與TAL-26E7和4CL-11C1突變體展現(xiàn)出雙向符號(hào)上位效應(yīng)(reciprocal sign epistasis)(圖3與4)。這些普遍存在的基因上位效應(yīng)無(wú)疑阻礙了途徑進(jìn)化進(jìn)程,致使途徑進(jìn)化陷入局部最優(yōu)解的困境。此外,高精度預(yù)測(cè)酶突變體的任務(wù)極具挑戰(zhàn),隨機(jī)突變庫(kù)介導(dǎo)的定向進(jìn)化過(guò)程常為“運(yùn)氣”或“偶然”事件。因此,在清晰軌跡的可控范圍內(nèi)同步進(jìn)化各限速酶,可提高代謝改造過(guò)程的可預(yù)測(cè)性,有效解決代謝進(jìn)化不確定性的問(wèn)題。
優(yōu)化啟動(dòng)子組合數(shù)據(jù),IT技術(shù)助力進(jìn)一步緩解進(jìn)化通路基因上位效應(yīng)
鑒于基因上位效應(yīng)影響,進(jìn)一步迭代進(jìn)化上述3個(gè)關(guān)鍵性基因可能會(huì)誘發(fā)代謝通路失衡,導(dǎo)致進(jìn)化不確定性。為此,本團(tuán)隊(duì)開(kāi)發(fā)了ProEnsemble機(jī)器學(xué)習(xí)框架(圖5),優(yōu)化進(jìn)化通路啟動(dòng)子組合,緩解進(jìn)化途徑的基因上位效應(yīng)影響。本研究盡可能選取不同分布的數(shù)據(jù),避免訓(xùn)練進(jìn)入局部最優(yōu)解,根據(jù)Al3+信號(hào),從約1000個(gè)克隆子中收集到相對(duì)平衡的數(shù)據(jù)集,柚皮素產(chǎn)量范圍在50.8至1044 mg/L之間。Top1的NAR1.0菌株柚皮素產(chǎn)量比對(duì)照組高出4.44倍。通過(guò)對(duì)數(shù)據(jù)集進(jìn)行十折交叉驗(yàn)證,評(píng)估13種常規(guī)預(yù)測(cè)器的均方根誤差(Root Mean Square Error, RMSE),隨后通過(guò)前向模型選擇,將誤差最小的預(yù)測(cè)器依次進(jìn)行集成,選擇RMSE最小的集成模型作為最終的預(yù)測(cè)模型。皮爾遜相關(guān)系數(shù)(Pearson Coefficient Correlation, PCC)也達(dá)到了0.74,顯示出該模型在真實(shí)值和預(yù)測(cè)值之間有更好的相關(guān)性。
該ProEnsemble模型預(yù)測(cè)的Top5菌株柚皮素產(chǎn)量均高于700 mg/L,比隨機(jī)采樣(960樣本有5個(gè)高產(chǎn)菌株)更具高效性和準(zhǔn)確性。然而,該數(shù)據(jù)集仍存在不平衡分布問(wèn)題,可能限制了模型的預(yù)測(cè)能力,導(dǎo)致Top5菌株產(chǎn)量均未超過(guò)NAR1.0菌株。為此,重新從1500個(gè)克隆子中進(jìn)一步擴(kuò)大訓(xùn)練集,分別用高于400、500、600、700和800 mg/L數(shù)據(jù)集優(yōu)化模型。最終,在初始數(shù)據(jù)集中增加27個(gè)高于600 mg/L的數(shù)據(jù)集后,模型表現(xiàn)最佳,PCC從0.74提高到0.82,上述結(jié)果揭示了數(shù)據(jù)集平衡分布對(duì)增強(qiáng)模型性能的重要性。結(jié)果顯示,第二輪預(yù)測(cè)的Top5菌株均能高效合成柚皮素。NAR2.0產(chǎn)量最高,為1.21 g/L,比NAR1.0高出16%,比未經(jīng)啟動(dòng)子優(yōu)化的初始構(gòu)建體高出5.16倍。值得注意的是,隨機(jī)啟動(dòng)子庫(kù)中超過(guò)99.11%的菌株產(chǎn)量低于1g/L,揭示了ProEnsemble集成模型可顯著提升挖掘高產(chǎn)菌株的可能性。
此外,我們用NAR2.0在1L發(fā)酵罐中進(jìn)行分批補(bǔ)料發(fā)酵,12h柚皮素產(chǎn)量為660 mg/L,48h時(shí)達(dá)到3.65 g/L,這是文獻(xiàn)中報(bào)道的直接從酪氨酸生產(chǎn)柚皮素的最高產(chǎn)量,為文獻(xiàn)報(bào)道以酪氨酸為底物對(duì)應(yīng)產(chǎn)量的3.41倍,為香豆酸中間體投喂發(fā)酵產(chǎn)量的3.02倍(圖5)。鑒于本研究?jī)H改造了途徑酶和啟動(dòng)子,未來(lái)的代謝工程策略可進(jìn)一步提高柚皮素產(chǎn)量。
生物智能制造突破:通用型底盤(pán)高效合成黃酮類(lèi)化合物
最后,研究團(tuán)隊(duì)僅通過(guò)過(guò)表達(dá)關(guān)鍵性合成基因,實(shí)現(xiàn)了染料木素、櫻花素和橙皮素等黃酮類(lèi)化合物的高效合成,其中染料木素達(dá)到72.32 mg/L,櫻花素為223.39 mg/L,橙皮素為82.50 mg/L,各黃酮產(chǎn)量均高于文獻(xiàn)報(bào)告水平(借助了一系列代謝工程改造)(圖6)。上述結(jié)果可重塑植物黃酮合成潛能的理解,為高附加值化合物的生產(chǎn)提供了新的思路和策略,展現(xiàn)了生物智能制造在現(xiàn)代工業(yè)中的巨大潛力和應(yīng)用前景。
總結(jié)與展望
針對(duì)基因上位效應(yīng)在途徑進(jìn)化中的普遍性及其帶來(lái)的局部最優(yōu)解困境,本研究團(tuán)隊(duì)以柚皮素代謝途徑為范例,基于自動(dòng)化大設(shè)施平臺(tái)技術(shù),在清晰進(jìn)化軌跡的可控范圍內(nèi)實(shí)現(xiàn)了代謝通路多個(gè)關(guān)鍵性基因的同步進(jìn)化,并借助ProEnsemble機(jī)器學(xué)習(xí)框架,進(jìn)一步緩解了進(jìn)化途徑的基因上位效應(yīng)影響,顯著提升了底盤(pán)開(kāi)發(fā)速度和效率,實(shí)現(xiàn)了柚皮素產(chǎn)量從實(shí)驗(yàn)室到工業(yè)規(guī)模生產(chǎn)的跨越。該項(xiàng)工作不僅攻克了代謝途徑進(jìn)化不確定性的技術(shù)壁壘,減少了研發(fā)時(shí)間并降低了經(jīng)濟(jì)成本,在代謝工程、酶工程等領(lǐng)域及其工業(yè)應(yīng)用中也極具意義:為生物智能制造提供了前沿的技術(shù)路線和全新的解決方案;為合成生物學(xué)在現(xiàn)代工業(yè)中的應(yīng)用開(kāi)辟了新的可能性。
中國(guó)科學(xué)院深圳先進(jìn)院合成生物學(xué)研究所羅小舟研究員與Jay D. Keasling教授為本文的通訊作者,團(tuán)隊(duì)成員助理研究員鄧華祥與碩士研究生余函為文章共同第一作者,研究助理何佳慧、梁維悅、鄧艷午等在生物實(shí)驗(yàn)等方面做出了重要貢獻(xiàn)。該研究獲得國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金委、廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金委、深圳市科技計(jì)劃等多個(gè)項(xiàng)目的支持,以及深圳市微生物藥物智能制造重點(diǎn)實(shí)驗(yàn)室、深圳合成生物學(xué)創(chuàng)新研究院和定量合成生物學(xué)重點(diǎn)實(shí)驗(yàn)室等平臺(tái)的支持。同時(shí),感謝科研助理魏珍琴在項(xiàng)目實(shí)施過(guò)程中協(xié)助組織會(huì)議討論等支撐工作。
圖1 探究柚皮素代謝通路基因上位效應(yīng)(以TAL基因?yàn)槔?/span>
圖2 確認(rèn)柚皮素關(guān)鍵性基因可控范圍內(nèi)的進(jìn)化軌跡
圖3在清晰進(jìn)化軌跡范圍內(nèi)平行進(jìn)化柚皮素關(guān)鍵性基因(自動(dòng)化大設(shè)施平臺(tái))與探究基因間上位效應(yīng)
圖4 探究基因間上位效應(yīng)
表1 柚皮素關(guān)鍵性基因及突變體酶動(dòng)力學(xué)信息匯總
圖5 機(jī)器學(xué)習(xí)框架ProEnsemble進(jìn)一步緩解進(jìn)化通路各基因間的上位效應(yīng)(機(jī)器學(xué)習(xí)模塊)
圖6 柚皮素底盤(pán)高效合成下游黃酮類(lèi)化合物
課題組招聘
羅小舟,深圳先進(jìn)院合成生物學(xué)研究所研究員,博士生導(dǎo)師,合成生物化學(xué)研究中心執(zhí)行主任、PI,深圳市合成生物研究重大科技基礎(chǔ)設(shè)施副總工藝師,森瑞斯生物科技(深圳)有限公司創(chuàng)始人。2010年于新加坡南洋理工大學(xué)獲得學(xué)士學(xué)位,2016年于美國(guó)圣地亞哥斯克里普斯研究所獲得化學(xué)專業(yè)博士學(xué)位(導(dǎo)師Peter G. Schultz院士),2016-2019于加州大學(xué)伯克利分校進(jìn)行博士后研究(合作導(dǎo)師Jay D. Keasling院士)。2019年加入中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院。先后入選國(guó)家重大人才工程(青年)專家、廣東省杰青、深圳市優(yōu)青、深圳市國(guó)家級(jí)高層次人才、2023南山十大杰出青年等。在Nature, Nature Chemical Biology, Cell Chemical Biology, Nature Synthesis, Nature Communications, PNAS, Angewandte Chemie,Advanced Science,Metabolic Engineering等知名學(xué)術(shù)期刊上發(fā)表論文40余篇。課題組聚焦于合成生物學(xué)領(lǐng)域中生命體內(nèi)生物化學(xué)過(guò)程相關(guān)研究,主要結(jié)合遺傳密碼擴(kuò)充技術(shù),酶的定向進(jìn)化,基因挖掘和代謝工程等多種化學(xué)生物學(xué)方法,基于大數(shù)據(jù)機(jī)器學(xué)習(xí)及高通量自動(dòng)化,深入研究多種不同類(lèi)別的天然產(chǎn)物及其衍生物的生物全合成的方法,并利用合成生物學(xué)方法,將研究成果轉(zhuǎn)化至制藥、個(gè)性化治療、新材料等領(lǐng)域。
課題組現(xiàn)長(zhǎng)期誠(chéng)聘生物、化學(xué)、生物信息學(xué)、生物醫(yī)學(xué)工程等交叉學(xué)科背景,或有酶定向進(jìn)化、機(jī)器學(xué)習(xí)、高通量篩選、天然及非天然化合物的生物全合成等研究背景的博士后,歡迎感興趣的同志投遞簡(jiǎn)歷至郵箱xz.luo@siat.ac.cn。
附件下載: