奇米四色7777中文字幕,中文字幕久久精品无码

Nature Communications | IT+BT，羅小舟課題組揭秘酶催化常數(shù)預(yù)測(cè)的“黑科技”

來(lái)源：合成所發(fā)布時(shí)間：2023-12-13【字體：大中小】

　　12月11日，中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院合成所羅小舟團(tuán)隊(duì)在Nature Communications發(fā)表題為UniKP: A unified framework for the prediction of enzyme kinetic parameters的文章。針對(duì)合成生物學(xué)和代謝工程領(lǐng)域濕實(shí)驗(yàn)測(cè)量酶動(dòng)力學(xué)參數(shù)成本高、干實(shí)驗(yàn)算法難以準(zhǔn)確預(yù)測(cè)等問(wèn)題，研究團(tuán)隊(duì)提出了一種基于預(yù)訓(xùn)練大語(yǔ)言模型的統(tǒng)一框架UniKP，可從蛋白質(zhì)序列和底物結(jié)構(gòu)直接高精度預(yù)測(cè)酶的動(dòng)力學(xué)參數(shù)，包括酶周轉(zhuǎn)數(shù)（k_cat）、米氏常數(shù)（K_m）和催化效率（k_cat / K_m），并在考慮包括pH和溫度等環(huán)境因素、高值區(qū)間預(yù)測(cè)等特定任務(wù)上實(shí)現(xiàn)了很好的適應(yīng)。該模型結(jié)合了目前先進(jìn)的深度學(xué)習(xí)算法（IT）和生物技術(shù)（BT），實(shí)現(xiàn)了酶動(dòng)力學(xué)參數(shù)準(zhǔn)確高效的預(yù)測(cè)和特定酶的高效挖掘和進(jìn)化，大大加速了酶改造和設(shè)計(jì)進(jìn)程，為化學(xué)生物學(xué)、代謝工程等領(lǐng)域的研究和相關(guān)的工業(yè)應(yīng)用，提供了新的解決方案。這是羅小舟團(tuán)隊(duì)繼2022年利用預(yù)訓(xùn)練語(yǔ)言模型和集成模型實(shí)現(xiàn)高效準(zhǔn)確的多肽和蛋白質(zhì)功能預(yù)測(cè)后（doi: 10.1093/bib/bbac476），融合前瞻性的技術(shù)在IT和BT交叉領(lǐng)域的又一重要進(jìn)展。　　

　　探秘酶的“速度秘密”：為什么這么重要？

　　研究特定底物的酶催化效率是一個(gè)基礎(chǔ)而重要的生物學(xué)問(wèn)題，對(duì)推動(dòng)酶工程、代謝工程和合成生物學(xué)領(lǐng)域發(fā)展，具有深遠(yuǎn)影響。而酶在特定反應(yīng)中的催化效率通常通過(guò)酶動(dòng)力學(xué)參數(shù)來(lái)衡量，包括酶周轉(zhuǎn)數(shù)（k_cat）、米氏常數(shù)（K_m）和催化效率（k_cat / K_m）等。然而，目前酶動(dòng)力學(xué)參數(shù)的測(cè)量主要依賴(lài)濕實(shí)驗(yàn)，這一過(guò)程耗時(shí)、昂貴且勞動(dòng)密集，導(dǎo)致實(shí)驗(yàn)測(cè)得的酶動(dòng)力學(xué)參數(shù)數(shù)據(jù)庫(kù)規(guī)模相對(duì)較小。以包含序列信息的UniProt數(shù)據(jù)庫(kù)為例，它包含了超過(guò)2.3億條蛋白質(zhì)序列，而酶學(xué)數(shù)據(jù)庫(kù)BRENDA和SABIO-RK等僅包含數(shù)萬(wàn)條實(shí)驗(yàn)測(cè)得的動(dòng)力學(xué)參數(shù)值，在某些物種中可能只有數(shù)十條序列，這種數(shù)據(jù)的稀缺性極大的限制了下游系統(tǒng)生物學(xué)和代謝工程領(lǐng)域的發(fā)展。

　　研究人員們嘗試?yán)糜?jì)算方法加速酶動(dòng)力學(xué)參數(shù)的預(yù)測(cè)過(guò)程，但當(dāng)前的模型主要集中在單獨(dú)的k_cat或者單獨(dú)的K_m的預(yù)測(cè)上，通過(guò)這些工具計(jì)算得到的k_cat / K_m的數(shù)值往往與實(shí)驗(yàn)測(cè)量的真實(shí)值明顯偏離，而這恰恰是反映催化效率最直接、最關(guān)鍵的參數(shù)。此外，當(dāng)前模型未考慮真實(shí)生物實(shí)驗(yàn)場(chǎng)景下的適應(yīng)性，如會(huì)顯著影響測(cè)得的酶動(dòng)力學(xué)參數(shù)數(shù)值的環(huán)境因素，生物學(xué)家關(guān)心的特定區(qū)間的預(yù)測(cè)性能等。這些局限性使得當(dāng)前工具停留在理論模型的開(kāi)發(fā)和數(shù)據(jù)分析上，并未對(duì)酶挖掘和定向進(jìn)化等真實(shí)生物實(shí)驗(yàn)中面臨的挑戰(zhàn)產(chǎn)生實(shí)質(zhì)性的影響，而解決這些挑戰(zhàn)對(duì)下游應(yīng)用具有重要意義。

　　黑科技登場(chǎng)！IT技術(shù)助力預(yù)測(cè)

　　為了解決上述問(wèn)題，研究團(tuán)隊(duì)提出了基于預(yù)訓(xùn)練大語(yǔ)言模型和機(jī)器學(xué)習(xí)模型的酶動(dòng)力學(xué)參數(shù)預(yù)測(cè)框架（UniKP），該框架僅通過(guò)給定酶的氨基酸序列和底物的結(jié)構(gòu)信息，就可以實(shí)現(xiàn)多種不同的酶動(dòng)力學(xué)參數(shù)（k_cat、K_m、k_cat / K_m）的預(yù)測(cè)。此外，為了實(shí)現(xiàn)對(duì)生物實(shí)驗(yàn)中不同任務(wù)場(chǎng)景的適應(yīng)，我們對(duì)模型和數(shù)據(jù)進(jìn)行了微調(diào)以實(shí)現(xiàn)更好的酶動(dòng)力學(xué)參數(shù)的預(yù)測(cè)，包括針對(duì)不同環(huán)境因素、高值區(qū)間的預(yù)測(cè)等（圖1）。

　　首先，研究團(tuán)隊(duì)以代表性的k_cat數(shù)據(jù)集為例，系統(tǒng)的探索了機(jī)器學(xué)習(xí)模塊16種不同的機(jī)器學(xué)習(xí)模型和2種代表性的深度學(xué)習(xí)模型（卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)）在該數(shù)據(jù)集上五折交叉驗(yàn)證的性能，結(jié)果顯示集成模型表現(xiàn)最好，尤其是隨機(jī)森林和極端隨機(jī)樹(shù)顯著優(yōu)于其他模型，其中極端隨機(jī)樹(shù)表現(xiàn)最佳（R² = 0.65）（圖2）。

　　接著，研究團(tuán)隊(duì)證實(shí)了UniKP框架在多個(gè)評(píng)估指標(biāo)上顯著超過(guò)了目前最先進(jìn)模型的性能。UniKP框架在獨(dú)立測(cè)試集上，決定系數(shù)R²相較于最先進(jìn)的模型有高達(dá)20個(gè)百分點(diǎn)的優(yōu)勢(shì)；此外，在更嚴(yán)格的數(shù)據(jù)劃分規(guī)則和不同數(shù)值區(qū)間下，UniKP也展現(xiàn)出了更好的穩(wěn)健性。并通過(guò)SHAP特征分析發(fā)現(xiàn)，UniKP顯示出對(duì)酶信息有一定的偏好性，這證實(shí)了在催化反應(yīng)中酶信息的關(guān)鍵性作用。此外，UniKP也可以顯著地對(duì)野生型酶及其突變體進(jìn)行區(qū)分（圖3-4）。

　　更真實(shí)的預(yù)測(cè)：考慮環(huán)境因素的兩層框架

　　為了更好的模擬生物實(shí)驗(yàn)環(huán)境，研究團(tuán)隊(duì)進(jìn)一步通過(guò)將環(huán)境因素納入考量，提出了基于UniKP的兩層框架: EF-UniKP，實(shí)現(xiàn)了更準(zhǔn)確地酶動(dòng)力學(xué)參數(shù)的預(yù)測(cè)。為了驗(yàn)證這個(gè)策略，我們創(chuàng)建了涵蓋pH和溫度信息的兩個(gè)數(shù)據(jù)集來(lái)對(duì)EF-UniKP進(jìn)行評(píng)估。在測(cè)試集上，EF-UniKP相較于UniKP和Revised UniKP表現(xiàn)更佳，R²分別高出20%和8%（pH數(shù)據(jù)集），以及26%和2%（溫度數(shù)據(jù)集）。在酶和底物至少有一個(gè)不在訓(xùn)練集的測(cè)試中，EF-UniKP在pH數(shù)據(jù)集上的R²值相較于UniKP和Revised UniKP分別高出13%和10%，在溫度數(shù)據(jù)集上分別高出16%和4%。此外，RMSE和PCC的優(yōu)勢(shì)也證實(shí)了EF-UniKP在考慮環(huán)境因素下對(duì)模型的顯著改善（圖5）。

　　重塑實(shí)驗(yàn)數(shù)據(jù)，預(yù)測(cè)更具針對(duì)性

　　此外，在對(duì)已有的k_cat數(shù)據(jù)集分析發(fā)現(xiàn)，其分布高度不均衡，大部分樣本集中在中間，兩端只有少數(shù)樣本，呈現(xiàn)正態(tài)分布的特征。這種嚴(yán)重的數(shù)據(jù)失衡導(dǎo)致了高k_cat值區(qū)間的預(yù)測(cè)有較高的誤差。為了解決該問(wèn)題，研究團(tuán)隊(duì)運(yùn)用了代表性的重新加權(quán)方法，包括直接修改樣本權(quán)重（DMW）、成本敏感的重新加權(quán)方法（CSW）、類(lèi)平衡的重新加權(quán)方法（CBW）以及標(biāo)簽分布平滑（LDS）等，以k_cat數(shù)據(jù)集為例進(jìn)行了優(yōu)化。這些方法都顯著降低了高值區(qū)間的誤差，其中CBW效果最佳，高k_cat值的樣本在CBW的優(yōu)化下均方根誤差比初始模型降低了6.5%（圖6a-c）。

　　進(jìn)一步地，為了評(píng)估UniKP框架在K_m和k_cat / K_m任務(wù)上的預(yù)測(cè)性能，研究團(tuán)隊(duì)選取了目前公開(kāi)可獲得的K_m數(shù)據(jù)集和新構(gòu)建的k_cat / K_m數(shù)據(jù)集，獲得了目前最先進(jìn)的預(yù)測(cè)性能，這也證實(shí)了通過(guò)該框架可以實(shí)現(xiàn)小分子-蛋白質(zhì)相互作用任務(wù)的統(tǒng)一化預(yù)測(cè)（圖6d-f）。

　　UniKP助力酶挖掘和定向進(jìn)化

　　最后，為了探索UniKP及其衍生框架在酶工程領(lǐng)域的實(shí)際應(yīng)用，研究團(tuán)隊(duì)以類(lèi)黃酮合成中的關(guān)鍵限速酶，酪氨酸脫氨酶（Tyrosine ammonia lyase, TAL）為例來(lái)進(jìn)行挖掘和進(jìn)化。實(shí)驗(yàn)結(jié)果表明，UniKP有效地識(shí)別了在數(shù)據(jù)庫(kù)中TAL的同工酶里以及已知TAL的突變體里的高活性TAL酶，無(wú)論是挖掘新酶，還是進(jìn)化已有酶，都得到了顯著提高的催化效率，其中RgTAL-489T的k_cat / K_m值比野生型酶高出3.5倍。此外，衍生框架EF-UniKP也可以在考慮環(huán)境因素的情況下，精準(zhǔn)識(shí)別高活性的TAL酶，驗(yàn)證的5條序列k_cat和k_cat / K_m值均優(yōu)于野生型TAL，最高的的k_cat / K_m值比野生型酶在給定pH情況下高出了2.6倍。該結(jié)果證實(shí)了UniKP可以有效的加速酶挖掘和進(jìn)化的過(guò)程，有望成為推動(dòng)生物催化、藥物發(fā)現(xiàn)、代謝工程等領(lǐng)域的強(qiáng)大工具（表1）。　

　　總結(jié)與展望

　　該項(xiàng)工作融合了先進(jìn)的人工智能模型（IT技術(shù)）和生物實(shí)驗(yàn)（BT技術(shù)），建立UniKP框架實(shí)現(xiàn)了酶動(dòng)力學(xué)參數(shù)的準(zhǔn)確預(yù)測(cè)，同時(shí)對(duì)環(huán)境因素、高值區(qū)間等特定的實(shí)驗(yàn)任務(wù)進(jìn)行了很好的適應(yīng)。實(shí)驗(yàn)結(jié)果表明，利用UniKP框架可以有效助力酶挖掘和定向進(jìn)化的過(guò)程，快速篩選到對(duì)特定底物更高活性的變體，顯著降低了酶篩選的時(shí)間和成本。目前，研究團(tuán)隊(duì)正在與合成生物學(xué)領(lǐng)域公司森瑞斯生物科技展開(kāi)進(jìn)一步的合作，推動(dòng)該技術(shù)的落地和轉(zhuǎn)化。

　　該項(xiàng)工作利用IT領(lǐng)域先進(jìn)的人工智能技術(shù)在BT領(lǐng)域進(jìn)行嘗試，即合成生物學(xué)基本的功能元件酶的催化效率的預(yù)測(cè)，表明了人工智能在合成生物學(xué)領(lǐng)域應(yīng)用的巨大潛力，這對(duì)酶工程、系統(tǒng)生物學(xué)、代謝工程等領(lǐng)域具有重要的參考價(jià)值和應(yīng)用意義，也為合成生物學(xué)方法的設(shè)計(jì)和研究開(kāi)拓了新的思路。

　　中國(guó)科學(xué)院深圳先進(jìn)院合成生物學(xué)研究所研究員羅小舟為本文的通訊作者，團(tuán)隊(duì)成員碩士研究生余函和助理研究員鄧華祥為文章共同第一作者，研究助理何佳慧在生物實(shí)驗(yàn)等方面做出了重要貢獻(xiàn)，Jay. D. Keasling教授在實(shí)驗(yàn)設(shè)計(jì)及文章修改方面提出了寶貴意見(jiàn)。該研究獲得國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金委、廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金委、深圳市科技計(jì)劃等多個(gè)項(xiàng)目的支持，以及深圳市微生物藥物智能制造重點(diǎn)實(shí)驗(yàn)室、深圳合成生物學(xué)創(chuàng)新研究院和定量合成生物學(xué)重點(diǎn)實(shí)驗(yàn)室等平臺(tái)的支持。同時(shí)，感謝科研助理魏珍琴在項(xiàng)目實(shí)施過(guò)程中協(xié)助組織會(huì)議討論等支撐工作。