Nature Communications | IT+BT,羅小舟課題組揭秘酶催化常數(shù)預(yù)測的“黑科技”
12月11日,中國科學(xué)院深圳先進技術(shù)研究院合成所羅小舟團隊在Nature Communications發(fā)表題為UniKP: A unified framework for the prediction of enzyme kinetic parameters的文章。針對合成生物學(xué)和代謝工程領(lǐng)域濕實驗測量酶動力學(xué)參數(shù)成本高、干實驗算法難以準(zhǔn)確預(yù)測等問題,研究團隊提出了一種基于預(yù)訓(xùn)練大語言模型的統(tǒng)一框架UniKP,可從蛋白質(zhì)序列和底物結(jié)構(gòu)直接高精度預(yù)測酶的動力學(xué)參數(shù),包括酶周轉(zhuǎn)數(shù)(kcat)、米氏常數(shù)(Km)和催化效率(kcat / Km),并在考慮包括pH和溫度等環(huán)境因素、高值區(qū)間預(yù)測等特定任務(wù)上實現(xiàn)了很好的適應(yīng)。該模型結(jié)合了目前先進的深度學(xué)習(xí)算法(IT)和生物技術(shù)(BT),實現(xiàn)了酶動力學(xué)參數(shù)準(zhǔn)確高效的預(yù)測和特定酶的高效挖掘和進化,大大加速了酶改造和設(shè)計進程,為化學(xué)生物學(xué)、代謝工程等領(lǐng)域的研究和相關(guān)的工業(yè)應(yīng)用,提供了新的解決方案。這是羅小舟團隊繼2022年利用預(yù)訓(xùn)練語言模型和集成模型實現(xiàn)高效準(zhǔn)確的多肽和蛋白質(zhì)功能預(yù)測后(doi: 10.1093/bib/bbac476),融合前瞻性的技術(shù)在IT和BT交叉領(lǐng)域的又一重要進展。
探秘酶的“速度秘密”:為什么這么重要?
研究特定底物的酶催化效率是一個基礎(chǔ)而重要的生物學(xué)問題,對推動酶工程、代謝工程和合成生物學(xué)領(lǐng)域發(fā)展,具有深遠影響。而酶在特定反應(yīng)中的催化效率通常通過酶動力學(xué)參數(shù)來衡量,包括酶周轉(zhuǎn)數(shù)(kcat)、米氏常數(shù)(Km)和催化效率(kcat / Km)等。然而,目前酶動力學(xué)參數(shù)的測量主要依賴濕實驗,這一過程耗時、昂貴且勞動密集,導(dǎo)致實驗測得的酶動力學(xué)參數(shù)數(shù)據(jù)庫規(guī)模相對較小。以包含序列信息的UniProt數(shù)據(jù)庫為例,它包含了超過2.3億條蛋白質(zhì)序列,而酶學(xué)數(shù)據(jù)庫BRENDA和SABIO-RK等僅包含數(shù)萬條實驗測得的動力學(xué)參數(shù)值,在某些物種中可能只有數(shù)十條序列,這種數(shù)據(jù)的稀缺性極大的限制了下游系統(tǒng)生物學(xué)和代謝工程領(lǐng)域的發(fā)展。
研究人員們嘗試?yán)糜嬎惴椒铀倜竸恿W(xué)參數(shù)的預(yù)測過程,但當(dāng)前的模型主要集中在單獨的kcat或者單獨的Km的預(yù)測上,通過這些工具計算得到的kcat / Km的數(shù)值往往與實驗測量的真實值明顯偏離,而這恰恰是反映催化效率最直接、最關(guān)鍵的參數(shù)。此外,當(dāng)前模型未考慮真實生物實驗場景下的適應(yīng)性,如會顯著影響測得的酶動力學(xué)參數(shù)數(shù)值的環(huán)境因素,生物學(xué)家關(guān)心的特定區(qū)間的預(yù)測性能等。這些局限性使得當(dāng)前工具停留在理論模型的開發(fā)和數(shù)據(jù)分析上,并未對酶挖掘和定向進化等真實生物實驗中面臨的挑戰(zhàn)產(chǎn)生實質(zhì)性的影響,而解決這些挑戰(zhàn)對下游應(yīng)用具有重要意義。
黑科技登場!IT技術(shù)助力預(yù)測
為了解決上述問題,研究團隊提出了基于預(yù)訓(xùn)練大語言模型和機器學(xué)習(xí)模型的酶動力學(xué)參數(shù)預(yù)測框架(UniKP),該框架僅通過給定酶的氨基酸序列和底物的結(jié)構(gòu)信息,就可以實現(xiàn)多種不同的酶動力學(xué)參數(shù)(kcat、Km、kcat / Km)的預(yù)測。此外,為了實現(xiàn)對生物實驗中不同任務(wù)場景的適應(yīng),我們對模型和數(shù)據(jù)進行了微調(diào)以實現(xiàn)更好的酶動力學(xué)參數(shù)的預(yù)測,包括針對不同環(huán)境因素、高值區(qū)間的預(yù)測等(圖1)。
首先,研究團隊以代表性的kcat數(shù)據(jù)集為例,系統(tǒng)的探索了機器學(xué)習(xí)模塊16種不同的機器學(xué)習(xí)模型和2種代表性的深度學(xué)習(xí)模型(卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò))在該數(shù)據(jù)集上五折交叉驗證的性能,結(jié)果顯示集成模型表現(xiàn)最好,尤其是隨機森林和極端隨機樹顯著優(yōu)于其他模型,其中極端隨機樹表現(xiàn)最佳(R2 = 0.65)(圖2)。
接著,研究團隊證實了UniKP框架在多個評估指標(biāo)上顯著超過了目前最先進模型的性能。UniKP框架在獨立測試集上,決定系數(shù)R2相較于最先進的模型有高達20個百分點的優(yōu)勢;此外,在更嚴(yán)格的數(shù)據(jù)劃分規(guī)則和不同數(shù)值區(qū)間下,UniKP也展現(xiàn)出了更好的穩(wěn)健性。并通過SHAP特征分析發(fā)現(xiàn),UniKP顯示出對酶信息有一定的偏好性,這證實了在催化反應(yīng)中酶信息的關(guān)鍵性作用。此外,UniKP也可以顯著地對野生型酶及其突變體進行區(qū)分(圖3-4)。
更真實的預(yù)測:考慮環(huán)境因素的兩層框架
為了更好的模擬生物實驗環(huán)境,研究團隊進一步通過將環(huán)境因素納入考量,提出了基于UniKP的兩層框架: EF-UniKP,實現(xiàn)了更準(zhǔn)確地酶動力學(xué)參數(shù)的預(yù)測。為了驗證這個策略,我們創(chuàng)建了涵蓋pH和溫度信息的兩個數(shù)據(jù)集來對EF-UniKP進行評估。在測試集上,EF-UniKP相較于UniKP和Revised UniKP表現(xiàn)更佳,R2分別高出20%和8%(pH數(shù)據(jù)集),以及26%和2%(溫度數(shù)據(jù)集)。在酶和底物至少有一個不在訓(xùn)練集的測試中,EF-UniKP在pH數(shù)據(jù)集上的R2值相較于UniKP和Revised UniKP分別高出13%和10%,在溫度數(shù)據(jù)集上分別高出16%和4%。此外,RMSE和PCC的優(yōu)勢也證實了EF-UniKP在考慮環(huán)境因素下對模型的顯著改善(圖5)。
重塑實驗數(shù)據(jù),預(yù)測更具針對性
此外,在對已有的kcat數(shù)據(jù)集分析發(fā)現(xiàn),其分布高度不均衡,大部分樣本集中在中間,兩端只有少數(shù)樣本,呈現(xiàn)正態(tài)分布的特征。這種嚴(yán)重的數(shù)據(jù)失衡導(dǎo)致了高kcat值區(qū)間的預(yù)測有較高的誤差。為了解決該問題,研究團隊運用了代表性的重新加權(quán)方法,包括直接修改樣本權(quán)重(DMW)、成本敏感的重新加權(quán)方法(CSW)、類平衡的重新加權(quán)方法(CBW)以及標(biāo)簽分布平滑(LDS)等,以kcat數(shù)據(jù)集為例進行了優(yōu)化。這些方法都顯著降低了高值區(qū)間的誤差,其中CBW效果最佳,高kcat值的樣本在CBW的優(yōu)化下均方根誤差比初始模型降低了6.5%(圖6a-c)。
進一步地,為了評估UniKP框架在Km和kcat / Km任務(wù)上的預(yù)測性能,研究團隊選取了目前公開可獲得的Km數(shù)據(jù)集和新構(gòu)建的kcat / Km數(shù)據(jù)集,獲得了目前最先進的預(yù)測性能,這也證實了通過該框架可以實現(xiàn)小分子-蛋白質(zhì)相互作用任務(wù)的統(tǒng)一化預(yù)測(圖6d-f)。
UniKP助力酶挖掘和定向進化
最后,為了探索UniKP及其衍生框架在酶工程領(lǐng)域的實際應(yīng)用,研究團隊以類黃酮合成中的關(guān)鍵限速酶,酪氨酸脫氨酶(Tyrosine ammonia lyase, TAL)為例來進行挖掘和進化。實驗結(jié)果表明,UniKP有效地識別了在數(shù)據(jù)庫中TAL的同工酶里以及已知TAL的突變體里的高活性TAL酶,無論是挖掘新酶,還是進化已有酶,都得到了顯著提高的催化效率,其中RgTAL-489T的kcat / Km值比野生型酶高出3.5倍。此外,衍生框架EF-UniKP也可以在考慮環(huán)境因素的情況下,精準(zhǔn)識別高活性的TAL酶,驗證的5條序列kcat和kcat / Km值均優(yōu)于野生型TAL,最高的的kcat / Km值比野生型酶在給定pH情況下高出了2.6倍。該結(jié)果證實了UniKP可以有效的加速酶挖掘和進化的過程,有望成為推動生物催化、藥物發(fā)現(xiàn)、代謝工程等領(lǐng)域的強大工具(表1)。
總結(jié)與展望
該項工作融合了先進的人工智能模型(IT技術(shù))和生物實驗(BT技術(shù)),建立UniKP框架實現(xiàn)了酶動力學(xué)參數(shù)的準(zhǔn)確預(yù)測,同時對環(huán)境因素、高值區(qū)間等特定的實驗任務(wù)進行了很好的適應(yīng)。實驗結(jié)果表明,利用UniKP框架可以有效助力酶挖掘和定向進化的過程,快速篩選到對特定底物更高活性的變體,顯著降低了酶篩選的時間和成本。目前,研究團隊正在與合成生物學(xué)領(lǐng)域公司森瑞斯生物科技展開進一步的合作,推動該技術(shù)的落地和轉(zhuǎn)化。
該項工作利用IT領(lǐng)域先進的人工智能技術(shù)在BT領(lǐng)域進行嘗試,即合成生物學(xué)基本的功能元件酶的催化效率的預(yù)測,表明了人工智能在合成生物學(xué)領(lǐng)域應(yīng)用的巨大潛力,這對酶工程、系統(tǒng)生物學(xué)、代謝工程等領(lǐng)域具有重要的參考價值和應(yīng)用意義,也為合成生物學(xué)方法的設(shè)計和研究開拓了新的思路。
中國科學(xué)院深圳先進院合成生物學(xué)研究所研究員羅小舟為本文的通訊作者,團隊成員碩士研究生余函和助理研究員鄧華祥為文章共同第一作者,研究助理何佳慧在生物實驗等方面做出了重要貢獻,Jay. D. Keasling教授在實驗設(shè)計及文章修改方面提出了寶貴意見。該研究獲得國家重點研發(fā)計劃、國家自然科學(xué)基金委、廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金委、深圳市科技計劃等多個項目的支持,以及深圳市微生物藥物智能制造重點實驗室、深圳合成生物學(xué)創(chuàng)新研究院和定量合成生物學(xué)重點實驗室等平臺的支持。同時,感謝科研助理魏珍琴在項目實施過程中協(xié)助組織會議討論等支撐工作。
圖1 UniKP框架結(jié)構(gòu)
圖2 不同機器學(xué)習(xí)模型的性能比較(機器學(xué)習(xí)模塊)
圖3 UniKP以高度的準(zhǔn)確性預(yù)測kcat數(shù)值
圖4 UniKP顯著區(qū)分野生型酶及其變體
圖5 EF-UniKP框架實現(xiàn)環(huán)境條件下更準(zhǔn)確的預(yù)測
圖6 重新加權(quán)方法改善高值區(qū)間預(yù)測 & UniKP框架泛化性的驗證
表1 UniKP和EF-UniKP輔助酶的挖掘和進化
附件下載: