Journal of Cheminformatics | 基于對比學(xué)習(xí)的酶促反應(yīng)分類AI模型
EC分類編號(EC number)是一套對酶催化功能進(jìn)行系統(tǒng)分類的體系。EC分類編號不僅可以用來描述酶的功能,也可以對相應(yīng)的酶促反應(yīng)進(jìn)行分類。雖然有經(jīng)驗(yàn)的化學(xué)家可以手動分析一個(gè)酶促反應(yīng)并對其EC分類編號的歸類,但當(dāng)面臨龐大的待預(yù)測數(shù)據(jù)時(shí),例如逆合成路徑規(guī)劃,藥物代謝路徑預(yù)測等,化學(xué)家們也會顯得力不從心。此時(shí),一個(gè)可靠的自動分類預(yù)測模型顯得格外重要。
構(gòu)建酶促反應(yīng)EC分類編號預(yù)測模型面臨兩個(gè)主要瓶頸——酶促反應(yīng)數(shù)據(jù)少,數(shù)據(jù)分布極度不平衡。為了克服這些難題,由中國科學(xué)院深圳先進(jìn)技術(shù)研究院的羅小舟領(lǐng)銜的研究團(tuán)隊(duì),近日在Journal of Cheminformatics期刊發(fā)表重要研究成果"CLAIRE: A Contrastive Learning-based Predictor for EC Number of Chemical Reactions"。在該研究成果中,團(tuán)隊(duì)利用對比學(xué)習(xí),數(shù)據(jù)擴(kuò)增,以及基于化學(xué)反應(yīng)預(yù)訓(xùn)練模型的特征提?。╡mbedding)策略,構(gòu)建了一個(gè)用于預(yù)測EC分類編號的高效人工智能模型(CLAIRE)。
?
文章上線截圖

圖1. CLAIRE的對比學(xué)習(xí)示意圖
作者將CLAIRE與當(dāng)前最領(lǐng)先的Theia模型進(jìn)行了對比。Theia是2023年由瑞士洛桑聯(lián)邦理工學(xué)院的科學(xué)家Daniel Probst發(fā)表在Journal of Cheminformatics期刊上的基于常規(guī)深度學(xué)習(xí)的模型——然而常規(guī)深度學(xué)習(xí)方法不能有效解決數(shù)據(jù)不平衡的問題。借助對比學(xué)習(xí)和數(shù)據(jù)擴(kuò)增的策略,CLAIRE展現(xiàn)出了優(yōu)異的性能——在測試集上,CLAIRE比Theia有數(shù)倍的準(zhǔn)確率提升,且在三級EC分類編號預(yù)測之間的一致性也顯著高于Theia。此外,作者利用酵母菌的代謝模型構(gòu)建了另一個(gè)大型獨(dú)立測試集。在該數(shù)據(jù)集中,CLAIRE的表現(xiàn)也顯著高于Theia。

圖2.CLAIRE在測試數(shù)據(jù)集上比Theia表現(xiàn)更好

圖3.CLAIRE在酵母菌代謝模型數(shù)據(jù)集上比Theia表現(xiàn)更好
通過一系列嚴(yán)格的評估,研究人員展示了CLAIRE的強(qiáng)大能力:在酵母代謝模型中,它成功區(qū)分了真實(shí)的酶-反應(yīng)配對與錯(cuò)誤配對。代謝模型是生物體內(nèi)代謝反應(yīng)的定量化表示,涵蓋基因、酶、代謝物及其細(xì)胞內(nèi)分布,廣泛應(yīng)用于代謝工程和通量平衡分析等領(lǐng)域。CLAIRE的加入使得研究人員能夠更高效地分析和注釋反應(yīng)網(wǎng)絡(luò),為代謝研究提供了全新可能。
此外,CLAIRE在逆合成路徑規(guī)劃和藥物代謝預(yù)測等關(guān)鍵領(lǐng)域展示出巨大應(yīng)用潛力。逆合成預(yù)測旨在推斷生成目標(biāo)化合物所需的原料及反應(yīng)路徑。在這一過程中,多個(gè)中間產(chǎn)物可能生成大量候選反應(yīng)。通過CLAIRE預(yù)測的EC編號,可為這些反應(yīng)分配相關(guān)酶,大幅提升最終目標(biāo)化合物成功合成的可能性。另外,藥物在人體內(nèi)的代謝轉(zhuǎn)化及路徑是評估其安全性和有效性的重要環(huán)節(jié)。通過對潛在反應(yīng)注釋EC編號,CLAIRE能夠清晰描繪可能的藥物代謝路徑,為毒性評估及藥物開發(fā)提供有力支持??偠灾擁?xiàng)成果在代謝工程和合成生物學(xué)領(lǐng)域中有著廣泛的應(yīng)用。
中國科學(xué)院深圳先進(jìn)技術(shù)研究院合成生物學(xué)研究所研究員羅小舟為本文的通訊作者,團(tuán)隊(duì)成員博士后曾梓碩為文章的第一作者。該工作獲得了深圳合成生物學(xué)創(chuàng)新研究院的支持。
附件下載: