Advanced Science | 自動化+機器學習攻克代謝途徑改造不確定性的技術壁壘
北京時間2月6日,中國科學院深圳先進技術研究院合成所羅小舟團隊與Jay D. Keasling團隊合作在Advanced Science發(fā)表題為Pathway evolution through a bottlenecking-debottlenecking strategy and machine learning-aided flux balancing的文章。
這項研究旨在解決代謝途徑工程中的一個關鍵性問題:基因上位效應限制了其進化潛力和適應性,導致進化過程的不確定性。例如,一個酶的微小改造可能會使另一個酶成為途徑的瓶頸,這可能需要數(shù)千年才能增強或開發(fā)新功能。因此,如何以更少的進化時間和迭代次數(shù)達到數(shù)千年自然進化過程所需的效果,一直是該領域研究的難點。針對上述問題,研究團隊利用自動化大設施平臺技術,確定可控的進化軌跡,實現(xiàn)了代謝通路多個關鍵性基因的自動化同步進化。該研究還搭載了ProEnsemble機器學習框架,進一步緩解了進化途徑各基因間的上位效應影響,進而創(chuàng)造了一個高效的通用型底盤來合成黃酮化合物。這項工作(DOI: 10.1002/advs.202306935)可以有效克服代謝途徑進化不確定性的技術難題。這是羅小舟團隊在2023年開發(fā)酶挖掘與進化的UniKP大語言模型框架后(Nat. Commun. 2023),在IT和BT交叉領域的又一重要進展。這項研究還融合了自動化技術和機器學習技術的優(yōu)勢,可以顯著提高底盤開發(fā)的速度和效率,減少研發(fā)時間,降低經濟成本。這也為推進生物智能制造領域的發(fā)展,提供了前沿的技術路線和全新的解決方案。
探秘代謝途徑進化“速度之謎”:基因上位效應是否存在?
在本項研究中,研究團隊試圖解決一個合成生物學領域的科學問題:如何在特定的進化軌跡中獲得最優(yōu)的突變組合。但是,不同突變組合在不同的背景下會呈現(xiàn)出不同的表現(xiàn),該種現(xiàn)象稱為基因上位效應。這種效應將導致途徑進化的不確定性,限制進化潛力和適應性。為了驗證這個現(xiàn)象,研究團隊以柚皮素代謝途徑為例,首先確定了TAL有義突變體,然后在不同的基因組合背景下評估了其適應性,最終證實了基因上位效應在代謝途徑進化過程中的普遍存在。
首先,將TAL基因放置于不同拷貝數(shù)、弱啟動子質粒,其余關鍵性代謝基因維持原質粒(圖1),發(fā)現(xiàn)當TAL基因被放置在中高拷貝數(shù)質粒ColE1時能獲得最高柚皮素產量。然而,在該背景質粒下,直接篩選TAL的隨機突變庫時,未能獲得產量更高的有義突變體,揭示了復雜的基因上位效應可能誘發(fā)途徑進化陷入局部最優(yōu)解。為解決該問題,該團隊將TAL隨機突變庫置于低拷貝數(shù)質粒,以創(chuàng)造一個人工代謝瓶頸,確保TAL的表達和活性是限制柚皮素產量的唯一因素。在這種情況下,突變體的進化軌跡更為清晰,在產量達到其本身在中高拷貝數(shù)質粒上所能達到的最高產量之前,理論上不會遇到中間體毒性或復雜調控等問題而導致進化的不確定性問題。基于此,研究團隊獲得了7株在該背景下能顯著提升柚皮素產量的TAL突變體,并確認了其突變位點。隨后,將野生型TAL及7種變體放置于中高質粒,發(fā)現(xiàn)所有TAL變體的柚皮素產量均低于其野生型的最高產量(357.66 mg/L)。上述結果證實了TAL基因置于中高拷貝數(shù)質粒(如ColE1 origin)時,基因上位效應可能會掩蓋柚皮素的有義突變體,導致代謝途徑在直接進化中往往只能達到次優(yōu)水平;這也解釋了途徑進化常出現(xiàn)微小或無明顯效果的原因。
自動化平臺加速代謝途徑同步進化:開辟酶活性與適應性新視野
改變外部環(huán)境可重塑途徑進化適應度特性,解決代謝途徑進化陷入局部最優(yōu)解的困局。因此,研究團隊逐個降低各關鍵基因表達水平,進而改變代謝途徑關鍵性基因進化的適應性。為了達成同步自動化輔助酶進化,研究團隊還進行了如下設計:1)僅用終產物柚皮素響應的分子探針系統(tǒng)作為評估途徑代謝能力的標準,以實現(xiàn)統(tǒng)一的篩選方法;2)搭載自動化大設施平臺技術,在清晰進化軌跡內實現(xiàn)各基因同步、迭代進化。
該自動化大設施平臺2周內可實現(xiàn)挑菌、培養(yǎng)、突變庫篩選、備選突變體產物提取等常規(guī)流程,整個操作與手工操作并無差異,證實了自動化大設施平臺在代謝途徑進化過程中的可靠性和準確性。此外,該平臺通量可達到1.1萬克隆子分選/次,即單次流程可同步進化2個基因(5000克隆子/每個基因/單次)或進化1個基因(10000克隆子/每個基因/單次)。
隨后,該自動化大設施平臺技術實現(xiàn)了4CL和CHS基因在清晰進化軌跡內的定向進化(圖2):低水平表達各基因(低拷貝數(shù)背景)為進化起點,即人工瓶頸狀態(tài);隨拷貝數(shù)增強,柚皮素產量達到最高閾值,即為該酶能進化到的最低閾值狀態(tài)(人工瓶頸解除狀態(tài))。最終,分別從約5000個克隆子庫中篩選到12和57個4CL和CHS突變體,對其最高的5和2個突變體分別進行產量和突變位點分析。4CL-11C1和CHS-9H9柚皮素產量與其對應的人工瓶頸解除狀態(tài)相似,展示了在清晰軌跡范圍內人工瓶頸創(chuàng)造與解除策略可實現(xiàn)代謝途徑高效進化,也進一步證實了上位效應可能會限制途徑進化的邊界。此外,4CL-11C1與CHS-9H9的kcat/KM值比其野生型分別顯著增強了2.07倍與4.16倍(表1)。部分TAL與CHS突變位點不在催化核心,揭示了利用高通量自動化大設施平臺技術可高效探尋理性設計難以預測的潛在活性遠端位點。該發(fā)現(xiàn)顛覆了傳統(tǒng)理性設計預期,也為我們提供了一個新視角:高通量自動化大設施平臺技術可用于探索之前未知的、與酶活或特異性有關的關鍵性位點,有助于推動生物工程和藥物設計等領域發(fā)展,為我們提供了解鎖酶潛能和拓展生物催化應用范圍的新鑰匙。
揭秘基因上位效應:重塑代謝途徑的進化與適應性
為進一步解密基因上位效應是否普遍存在、且是否會造成代謝途徑進化不確定性等問題,研究團隊對各基因的野生型和有益突變體進行了交叉配對并評估了各工程菌柚皮素合成能力(圖3與4)。結果顯示,在4CL和CHS野生型基因組合背景下,所有TAL突變體柚皮素產量顯著降低;而在4CL和CHS突變體組合背景下,野生型TAL柚皮素產量略微增強(圖4)。此外,還發(fā)現(xiàn)了不同基因上位效應現(xiàn)象:如TAL-26E7和TAL-28D11 與4CL-11C1和CHS-9H9突變體展現(xiàn)出較強的符合上位效應(sign epistasis);其余TAL突變體呈現(xiàn)出正上位效應(positive epistasis);4CL-11C1與TAL-26E7和CHS-9H9突變體呈現(xiàn)出負上位效應(negative epistasis);CHS-9H9與TAL-26E7和4CL-11C1突變體展現(xiàn)出雙向符號上位效應(reciprocal sign epistasis)(圖3與4)。這些普遍存在的基因上位效應無疑阻礙了途徑進化進程,致使途徑進化陷入局部最優(yōu)解的困境。此外,高精度預測酶突變體的任務極具挑戰(zhàn),隨機突變庫介導的定向進化過程常為“運氣”或“偶然”事件。因此,在清晰軌跡的可控范圍內同步進化各限速酶,可提高代謝改造過程的可預測性,有效解決代謝進化不確定性的問題。
優(yōu)化啟動子組合數(shù)據,IT技術助力進一步緩解進化通路基因上位效應
鑒于基因上位效應影響,進一步迭代進化上述3個關鍵性基因可能會誘發(fā)代謝通路失衡,導致進化不確定性。為此,本團隊開發(fā)了ProEnsemble機器學習框架(圖5),優(yōu)化進化通路啟動子組合,緩解進化途徑的基因上位效應影響。本研究盡可能選取不同分布的數(shù)據,避免訓練進入局部最優(yōu)解,根據Al3+信號,從約1000個克隆子中收集到相對平衡的數(shù)據集,柚皮素產量范圍在50.8至1044 mg/L之間。Top1的NAR1.0菌株柚皮素產量比對照組高出4.44倍。通過對數(shù)據集進行十折交叉驗證,評估13種常規(guī)預測器的均方根誤差(Root Mean Square Error, RMSE),隨后通過前向模型選擇,將誤差最小的預測器依次進行集成,選擇RMSE最小的集成模型作為最終的預測模型。皮爾遜相關系數(shù)(Pearson Coefficient Correlation, PCC)也達到了0.74,顯示出該模型在真實值和預測值之間有更好的相關性。
該ProEnsemble模型預測的Top5菌株柚皮素產量均高于700 mg/L,比隨機采樣(960樣本有5個高產菌株)更具高效性和準確性。然而,該數(shù)據集仍存在不平衡分布問題,可能限制了模型的預測能力,導致Top5菌株產量均未超過NAR1.0菌株。為此,重新從1500個克隆子中進一步擴大訓練集,分別用高于400、500、600、700和800 mg/L數(shù)據集優(yōu)化模型。最終,在初始數(shù)據集中增加27個高于600 mg/L的數(shù)據集后,模型表現(xiàn)最佳,PCC從0.74提高到0.82,上述結果揭示了數(shù)據集平衡分布對增強模型性能的重要性。結果顯示,第二輪預測的Top5菌株均能高效合成柚皮素。NAR2.0產量最高,為1.21 g/L,比NAR1.0高出16%,比未經啟動子優(yōu)化的初始構建體高出5.16倍。值得注意的是,隨機啟動子庫中超過99.11%的菌株產量低于1g/L,揭示了ProEnsemble集成模型可顯著提升挖掘高產菌株的可能性。
此外,我們用NAR2.0在1L發(fā)酵罐中進行分批補料發(fā)酵,12h柚皮素產量為660 mg/L,48h時達到3.65 g/L,這是文獻中報道的直接從酪氨酸生產柚皮素的最高產量,為文獻報道以酪氨酸為底物對應產量的3.41倍,為香豆酸中間體投喂發(fā)酵產量的3.02倍(圖5)。鑒于本研究僅改造了途徑酶和啟動子,未來的代謝工程策略可進一步提高柚皮素產量。
生物智能制造突破:通用型底盤高效合成黃酮類化合物
最后,研究團隊僅通過過表達關鍵性合成基因,實現(xiàn)了染料木素、櫻花素和橙皮素等黃酮類化合物的高效合成,其中染料木素達到72.32 mg/L,櫻花素為223.39 mg/L,橙皮素為82.50 mg/L,各黃酮產量均高于文獻報告水平(借助了一系列代謝工程改造)(圖6)。上述結果可重塑植物黃酮合成潛能的理解,為高附加值化合物的生產提供了新的思路和策略,展現(xiàn)了生物智能制造在現(xiàn)代工業(yè)中的巨大潛力和應用前景。
總結與展望
針對基因上位效應在途徑進化中的普遍性及其帶來的局部最優(yōu)解困境,本研究團隊以柚皮素代謝途徑為范例,基于自動化大設施平臺技術,在清晰進化軌跡的可控范圍內實現(xiàn)了代謝通路多個關鍵性基因的同步進化,并借助ProEnsemble機器學習框架,進一步緩解了進化途徑的基因上位效應影響,顯著提升了底盤開發(fā)速度和效率,實現(xiàn)了柚皮素產量從實驗室到工業(yè)規(guī)模生產的跨越。該項工作不僅攻克了代謝途徑進化不確定性的技術壁壘,減少了研發(fā)時間并降低了經濟成本,在代謝工程、酶工程等領域及其工業(yè)應用中也極具意義:為生物智能制造提供了前沿的技術路線和全新的解決方案;為合成生物學在現(xiàn)代工業(yè)中的應用開辟了新的可能性。
中國科學院深圳先進院合成生物學研究所羅小舟研究員與Jay D. Keasling教授為本文的通訊作者,團隊成員助理研究員鄧華祥與碩士研究生余函為文章共同第一作者,研究助理何佳慧、梁維悅、鄧艷午等在生物實驗等方面做出了重要貢獻。該研究獲得國家重點研發(fā)計劃、國家自然科學基金委、廣東省基礎與應用基礎研究基金委、深圳市科技計劃等多個項目的支持,以及深圳市微生物藥物智能制造重點實驗室、深圳合成生物學創(chuàng)新研究院和定量合成生物學重點實驗室等平臺的支持。同時,感謝科研助理魏珍琴在項目實施過程中協(xié)助組織會議討論等支撐工作。
圖1 探究柚皮素代謝通路基因上位效應(以TAL基因為例)
圖2 確認柚皮素關鍵性基因可控范圍內的進化軌跡
圖3在清晰進化軌跡范圍內平行進化柚皮素關鍵性基因(自動化大設施平臺)與探究基因間上位效應
圖4 探究基因間上位效應
表1 柚皮素關鍵性基因及突變體酶動力學信息匯總
圖5 機器學習框架ProEnsemble進一步緩解進化通路各基因間的上位效應(機器學習模塊)
圖6 柚皮素底盤高效合成下游黃酮類化合物
課題組招聘
羅小舟,深圳先進院合成生物學研究所研究員,博士生導師,合成生物化學研究中心執(zhí)行主任、PI,深圳市合成生物研究重大科技基礎設施副總工藝師,森瑞斯生物科技(深圳)有限公司創(chuàng)始人。2010年于新加坡南洋理工大學獲得學士學位,2016年于美國圣地亞哥斯克里普斯研究所獲得化學專業(yè)博士學位(導師Peter G. Schultz院士),2016-2019于加州大學伯克利分校進行博士后研究(合作導師Jay D. Keasling院士)。2019年加入中國科學院深圳先進技術研究院。先后入選國家重大人才工程(青年)專家、廣東省杰青、深圳市優(yōu)青、深圳市國家級高層次人才、2023南山十大杰出青年等。在Nature, Nature Chemical Biology, Cell Chemical Biology, Nature Synthesis, Nature Communications, PNAS, Angewandte Chemie,Advanced Science,Metabolic Engineering等知名學術期刊上發(fā)表論文40余篇。課題組聚焦于合成生物學領域中生命體內生物化學過程相關研究,主要結合遺傳密碼擴充技術,酶的定向進化,基因挖掘和代謝工程等多種化學生物學方法,基于大數(shù)據機器學習及高通量自動化,深入研究多種不同類別的天然產物及其衍生物的生物全合成的方法,并利用合成生物學方法,將研究成果轉化至制藥、個性化治療、新材料等領域。
課題組現(xiàn)長期誠聘生物、化學、生物信息學、生物醫(yī)學工程等交叉學科背景,或有酶定向進化、機器學習、高通量篩選、天然及非天然化合物的生物全合成等研究背景的博士后,歡迎感興趣的同志投遞簡歷至郵箱xz.luo@siat.ac.cn。
附件下載: