Nature Communications | IT+BT,羅小舟課題組揭秘酶催化常數(shù)預(yù)測(cè)的“黑科技”
12月11日,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院合成所羅小舟團(tuán)隊(duì)在Nature Communications發(fā)表題為UniKP: A unified framework for the prediction of enzyme kinetic parameters的文章。針對(duì)合成生物學(xué)和代謝工程領(lǐng)域濕實(shí)驗(yàn)測(cè)量酶動(dòng)力學(xué)參數(shù)成本高、干實(shí)驗(yàn)算法難以準(zhǔn)確預(yù)測(cè)等問(wèn)題,研究團(tuán)隊(duì)提出了一種基于預(yù)訓(xùn)練大語(yǔ)言模型的統(tǒng)一框架UniKP,可從蛋白質(zhì)序列和底物結(jié)構(gòu)直接高精度預(yù)測(cè)酶的動(dòng)力學(xué)參數(shù),包括酶周轉(zhuǎn)數(shù)(kcat)、米氏常數(shù)(Km)和催化效率(kcat / Km),并在考慮包括pH和溫度等環(huán)境因素、高值區(qū)間預(yù)測(cè)等特定任務(wù)上實(shí)現(xiàn)了很好的適應(yīng)。該模型結(jié)合了目前先進(jìn)的深度學(xué)習(xí)算法(IT)和生物技術(shù)(BT),實(shí)現(xiàn)了酶動(dòng)力學(xué)參數(shù)準(zhǔn)確高效的預(yù)測(cè)和特定酶的高效挖掘和進(jìn)化,大大加速了酶改造和設(shè)計(jì)進(jìn)程,為化學(xué)生物學(xué)、代謝工程等領(lǐng)域的研究和相關(guān)的工業(yè)應(yīng)用,提供了新的解決方案。這是羅小舟團(tuán)隊(duì)繼2022年利用預(yù)訓(xùn)練語(yǔ)言模型和集成模型實(shí)現(xiàn)高效準(zhǔn)確的多肽和蛋白質(zhì)功能預(yù)測(cè)后(doi: 10.1093/bib/bbac476),融合前瞻性的技術(shù)在IT和BT交叉領(lǐng)域的又一重要進(jìn)展。
探秘酶的“速度秘密”:為什么這么重要?
研究特定底物的酶催化效率是一個(gè)基礎(chǔ)而重要的生物學(xué)問(wèn)題,對(duì)推動(dòng)酶工程、代謝工程和合成生物學(xué)領(lǐng)域發(fā)展,具有深遠(yuǎn)影響。而酶在特定反應(yīng)中的催化效率通常通過(guò)酶動(dòng)力學(xué)參數(shù)來(lái)衡量,包括酶周轉(zhuǎn)數(shù)(kcat)、米氏常數(shù)(Km)和催化效率(kcat / Km)等。然而,目前酶動(dòng)力學(xué)參數(shù)的測(cè)量主要依賴(lài)濕實(shí)驗(yàn),這一過(guò)程耗時(shí)、昂貴且勞動(dòng)密集,導(dǎo)致實(shí)驗(yàn)測(cè)得的酶動(dòng)力學(xué)參數(shù)數(shù)據(jù)庫(kù)規(guī)模相對(duì)較小。以包含序列信息的UniProt數(shù)據(jù)庫(kù)為例,它包含了超過(guò)2.3億條蛋白質(zhì)序列,而酶學(xué)數(shù)據(jù)庫(kù)BRENDA和SABIO-RK等僅包含數(shù)萬(wàn)條實(shí)驗(yàn)測(cè)得的動(dòng)力學(xué)參數(shù)值,在某些物種中可能只有數(shù)十條序列,這種數(shù)據(jù)的稀缺性極大的限制了下游系統(tǒng)生物學(xué)和代謝工程領(lǐng)域的發(fā)展。
研究人員們嘗試?yán)糜?jì)算方法加速酶動(dòng)力學(xué)參數(shù)的預(yù)測(cè)過(guò)程,但當(dāng)前的模型主要集中在單獨(dú)的kcat或者單獨(dú)的Km的預(yù)測(cè)上,通過(guò)這些工具計(jì)算得到的kcat / Km的數(shù)值往往與實(shí)驗(yàn)測(cè)量的真實(shí)值明顯偏離,而這恰恰是反映催化效率最直接、最關(guān)鍵的參數(shù)。此外,當(dāng)前模型未考慮真實(shí)生物實(shí)驗(yàn)場(chǎng)景下的適應(yīng)性,如會(huì)顯著影響測(cè)得的酶動(dòng)力學(xué)參數(shù)數(shù)值的環(huán)境因素,生物學(xué)家關(guān)心的特定區(qū)間的預(yù)測(cè)性能等。這些局限性使得當(dāng)前工具停留在理論模型的開(kāi)發(fā)和數(shù)據(jù)分析上,并未對(duì)酶挖掘和定向進(jìn)化等真實(shí)生物實(shí)驗(yàn)中面臨的挑戰(zhàn)產(chǎn)生實(shí)質(zhì)性的影響,而解決這些挑戰(zhàn)對(duì)下游應(yīng)用具有重要意義。
黑科技登場(chǎng)!IT技術(shù)助力預(yù)測(cè)
為了解決上述問(wèn)題,研究團(tuán)隊(duì)提出了基于預(yù)訓(xùn)練大語(yǔ)言模型和機(jī)器學(xué)習(xí)模型的酶動(dòng)力學(xué)參數(shù)預(yù)測(cè)框架(UniKP),該框架僅通過(guò)給定酶的氨基酸序列和底物的結(jié)構(gòu)信息,就可以實(shí)現(xiàn)多種不同的酶動(dòng)力學(xué)參數(shù)(kcat、Km、kcat / Km)的預(yù)測(cè)。此外,為了實(shí)現(xiàn)對(duì)生物實(shí)驗(yàn)中不同任務(wù)場(chǎng)景的適應(yīng),我們對(duì)模型和數(shù)據(jù)進(jìn)行了微調(diào)以實(shí)現(xiàn)更好的酶動(dòng)力學(xué)參數(shù)的預(yù)測(cè),包括針對(duì)不同環(huán)境因素、高值區(qū)間的預(yù)測(cè)等(圖1)。
首先,研究團(tuán)隊(duì)以代表性的kcat數(shù)據(jù)集為例,系統(tǒng)的探索了機(jī)器學(xué)習(xí)模塊16種不同的機(jī)器學(xué)習(xí)模型和2種代表性的深度學(xué)習(xí)模型(卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò))在該數(shù)據(jù)集上五折交叉驗(yàn)證的性能,結(jié)果顯示集成模型表現(xiàn)最好,尤其是隨機(jī)森林和極端隨機(jī)樹(shù)顯著優(yōu)于其他模型,其中極端隨機(jī)樹(shù)表現(xiàn)最佳(R2 = 0.65)(圖2)。
接著,研究團(tuán)隊(duì)證實(shí)了UniKP框架在多個(gè)評(píng)估指標(biāo)上顯著超過(guò)了目前最先進(jìn)模型的性能。UniKP框架在獨(dú)立測(cè)試集上,決定系數(shù)R2相較于最先進(jìn)的模型有高達(dá)20個(gè)百分點(diǎn)的優(yōu)勢(shì);此外,在更嚴(yán)格的數(shù)據(jù)劃分規(guī)則和不同數(shù)值區(qū)間下,UniKP也展現(xiàn)出了更好的穩(wěn)健性。并通過(guò)SHAP特征分析發(fā)現(xiàn),UniKP顯示出對(duì)酶信息有一定的偏好性,這證實(shí)了在催化反應(yīng)中酶信息的關(guān)鍵性作用。此外,UniKP也可以顯著地對(duì)野生型酶及其突變體進(jìn)行區(qū)分(圖3-4)。
更真實(shí)的預(yù)測(cè):考慮環(huán)境因素的兩層框架
為了更好的模擬生物實(shí)驗(yàn)環(huán)境,研究團(tuán)隊(duì)進(jìn)一步通過(guò)將環(huán)境因素納入考量,提出了基于UniKP的兩層框架: EF-UniKP,實(shí)現(xiàn)了更準(zhǔn)確地酶動(dòng)力學(xué)參數(shù)的預(yù)測(cè)。為了驗(yàn)證這個(gè)策略,我們創(chuàng)建了涵蓋pH和溫度信息的兩個(gè)數(shù)據(jù)集來(lái)對(duì)EF-UniKP進(jìn)行評(píng)估。在測(cè)試集上,EF-UniKP相較于UniKP和Revised UniKP表現(xiàn)更佳,R2分別高出20%和8%(pH數(shù)據(jù)集),以及26%和2%(溫度數(shù)據(jù)集)。在酶和底物至少有一個(gè)不在訓(xùn)練集的測(cè)試中,EF-UniKP在pH數(shù)據(jù)集上的R2值相較于UniKP和Revised UniKP分別高出13%和10%,在溫度數(shù)據(jù)集上分別高出16%和4%。此外,RMSE和PCC的優(yōu)勢(shì)也證實(shí)了EF-UniKP在考慮環(huán)境因素下對(duì)模型的顯著改善(圖5)。
重塑實(shí)驗(yàn)數(shù)據(jù),預(yù)測(cè)更具針對(duì)性
此外,在對(duì)已有的kcat數(shù)據(jù)集分析發(fā)現(xiàn),其分布高度不均衡,大部分樣本集中在中間,兩端只有少數(shù)樣本,呈現(xiàn)正態(tài)分布的特征。這種嚴(yán)重的數(shù)據(jù)失衡導(dǎo)致了高kcat值區(qū)間的預(yù)測(cè)有較高的誤差。為了解決該問(wèn)題,研究團(tuán)隊(duì)運(yùn)用了代表性的重新加權(quán)方法,包括直接修改樣本權(quán)重(DMW)、成本敏感的重新加權(quán)方法(CSW)、類(lèi)平衡的重新加權(quán)方法(CBW)以及標(biāo)簽分布平滑(LDS)等,以kcat數(shù)據(jù)集為例進(jìn)行了優(yōu)化。這些方法都顯著降低了高值區(qū)間的誤差,其中CBW效果最佳,高kcat值的樣本在CBW的優(yōu)化下均方根誤差比初始模型降低了6.5%(圖6a-c)。
進(jìn)一步地,為了評(píng)估UniKP框架在Km和kcat / Km任務(wù)上的預(yù)測(cè)性能,研究團(tuán)隊(duì)選取了目前公開(kāi)可獲得的Km數(shù)據(jù)集和新構(gòu)建的kcat / Km數(shù)據(jù)集,獲得了目前最先進(jìn)的預(yù)測(cè)性能,這也證實(shí)了通過(guò)該框架可以實(shí)現(xiàn)小分子-蛋白質(zhì)相互作用任務(wù)的統(tǒng)一化預(yù)測(cè)(圖6d-f)。
UniKP助力酶挖掘和定向進(jìn)化
最后,為了探索UniKP及其衍生框架在酶工程領(lǐng)域的實(shí)際應(yīng)用,研究團(tuán)隊(duì)以類(lèi)黃酮合成中的關(guān)鍵限速酶,酪氨酸脫氨酶(Tyrosine ammonia lyase, TAL)為例來(lái)進(jìn)行挖掘和進(jìn)化。實(shí)驗(yàn)結(jié)果表明,UniKP有效地識(shí)別了在數(shù)據(jù)庫(kù)中TAL的同工酶里以及已知TAL的突變體里的高活性TAL酶,無(wú)論是挖掘新酶,還是進(jìn)化已有酶,都得到了顯著提高的催化效率,其中RgTAL-489T的kcat / Km值比野生型酶高出3.5倍。此外,衍生框架EF-UniKP也可以在考慮環(huán)境因素的情況下,精準(zhǔn)識(shí)別高活性的TAL酶,驗(yàn)證的5條序列kcat和kcat / Km值均優(yōu)于野生型TAL,最高的的kcat / Km值比野生型酶在給定pH情況下高出了2.6倍。該結(jié)果證實(shí)了UniKP可以有效的加速酶挖掘和進(jìn)化的過(guò)程,有望成為推動(dòng)生物催化、藥物發(fā)現(xiàn)、代謝工程等領(lǐng)域的強(qiáng)大工具(表1)。
總結(jié)與展望
該項(xiàng)工作融合了先進(jìn)的人工智能模型(IT技術(shù))和生物實(shí)驗(yàn)(BT技術(shù)),建立UniKP框架實(shí)現(xiàn)了酶動(dòng)力學(xué)參數(shù)的準(zhǔn)確預(yù)測(cè),同時(shí)對(duì)環(huán)境因素、高值區(qū)間等特定的實(shí)驗(yàn)任務(wù)進(jìn)行了很好的適應(yīng)。實(shí)驗(yàn)結(jié)果表明,利用UniKP框架可以有效助力酶挖掘和定向進(jìn)化的過(guò)程,快速篩選到對(duì)特定底物更高活性的變體,顯著降低了酶篩選的時(shí)間和成本。目前,研究團(tuán)隊(duì)正在與合成生物學(xué)領(lǐng)域公司森瑞斯生物科技展開(kāi)進(jìn)一步的合作,推動(dòng)該技術(shù)的落地和轉(zhuǎn)化。
該項(xiàng)工作利用IT領(lǐng)域先進(jìn)的人工智能技術(shù)在BT領(lǐng)域進(jìn)行嘗試,即合成生物學(xué)基本的功能元件酶的催化效率的預(yù)測(cè),表明了人工智能在合成生物學(xué)領(lǐng)域應(yīng)用的巨大潛力,這對(duì)酶工程、系統(tǒng)生物學(xué)、代謝工程等領(lǐng)域具有重要的參考價(jià)值和應(yīng)用意義,也為合成生物學(xué)方法的設(shè)計(jì)和研究開(kāi)拓了新的思路。
中國(guó)科學(xué)院深圳先進(jìn)院合成生物學(xué)研究所研究員羅小舟為本文的通訊作者,團(tuán)隊(duì)成員碩士研究生余函和助理研究員鄧華祥為文章共同第一作者,研究助理何佳慧在生物實(shí)驗(yàn)等方面做出了重要貢獻(xiàn),Jay. D. Keasling教授在實(shí)驗(yàn)設(shè)計(jì)及文章修改方面提出了寶貴意見(jiàn)。該研究獲得國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金委、廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金委、深圳市科技計(jì)劃等多個(gè)項(xiàng)目的支持,以及深圳市微生物藥物智能制造重點(diǎn)實(shí)驗(yàn)室、深圳合成生物學(xué)創(chuàng)新研究院和定量合成生物學(xué)重點(diǎn)實(shí)驗(yàn)室等平臺(tái)的支持。同時(shí),感謝科研助理魏珍琴在項(xiàng)目實(shí)施過(guò)程中協(xié)助組織會(huì)議討論等支撐工作。
圖1 UniKP框架結(jié)構(gòu)
圖2 不同機(jī)器學(xué)習(xí)模型的性能比較(機(jī)器學(xué)習(xí)模塊)
圖3 UniKP以高度的準(zhǔn)確性預(yù)測(cè)kcat數(shù)值
圖4 UniKP顯著區(qū)分野生型酶及其變體
圖5 EF-UniKP框架實(shí)現(xiàn)環(huán)境條件下更準(zhǔn)確的預(yù)測(cè)
圖6 重新加權(quán)方法改善高值區(qū)間預(yù)測(cè) & UniKP框架泛化性的驗(yàn)證
表1 UniKP和EF-UniKP輔助酶的挖掘和進(jìn)化
附件下載: