Journal of Cheminformatics | 基于對(duì)比學(xué)習(xí)的酶促反應(yīng)分類(lèi)AI模型
EC分類(lèi)編號(hào)(EC number)是一套對(duì)酶催化功能進(jìn)行系統(tǒng)分類(lèi)的體系。EC分類(lèi)編號(hào)不僅可以用來(lái)描述酶的功能,也可以對(duì)相應(yīng)的酶促反應(yīng)進(jìn)行分類(lèi)。雖然有經(jīng)驗(yàn)的化學(xué)家可以手動(dòng)分析一個(gè)酶促反應(yīng)并對(duì)其EC分類(lèi)編號(hào)的歸類(lèi),但當(dāng)面臨龐大的待預(yù)測(cè)數(shù)據(jù)時(shí),例如逆合成路徑規(guī)劃,藥物代謝路徑預(yù)測(cè)等,化學(xué)家們也會(huì)顯得力不從心。此時(shí),一個(gè)可靠的自動(dòng)分類(lèi)預(yù)測(cè)模型顯得格外重要。
構(gòu)建酶促反應(yīng)EC分類(lèi)編號(hào)預(yù)測(cè)模型面臨兩個(gè)主要瓶頸——酶促反應(yīng)數(shù)據(jù)少,數(shù)據(jù)分布極度不平衡。為了克服這些難題,由中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院的羅小舟領(lǐng)銜的研究團(tuán)隊(duì),近日在Journal of Cheminformatics期刊發(fā)表重要研究成果"CLAIRE: A Contrastive Learning-based Predictor for EC Number of Chemical Reactions"。在該研究成果中,團(tuán)隊(duì)利用對(duì)比學(xué)習(xí),數(shù)據(jù)擴(kuò)增,以及基于化學(xué)反應(yīng)預(yù)訓(xùn)練模型的特征提?。╡mbedding)策略,構(gòu)建了一個(gè)用于預(yù)測(cè)EC分類(lèi)編號(hào)的高效人工智能模型(CLAIRE)。
?
文章上線截圖

圖1. CLAIRE的對(duì)比學(xué)習(xí)示意圖
作者將CLAIRE與當(dāng)前最領(lǐng)先的Theia模型進(jìn)行了對(duì)比。Theia是2023年由瑞士洛桑聯(lián)邦理工學(xué)院的科學(xué)家Daniel Probst發(fā)表在Journal of Cheminformatics期刊上的基于常規(guī)深度學(xué)習(xí)的模型——然而常規(guī)深度學(xué)習(xí)方法不能有效解決數(shù)據(jù)不平衡的問(wèn)題。借助對(duì)比學(xué)習(xí)和數(shù)據(jù)擴(kuò)增的策略,CLAIRE展現(xiàn)出了優(yōu)異的性能——在測(cè)試集上,CLAIRE比Theia有數(shù)倍的準(zhǔn)確率提升,且在三級(jí)EC分類(lèi)編號(hào)預(yù)測(cè)之間的一致性也顯著高于Theia。此外,作者利用酵母菌的代謝模型構(gòu)建了另一個(gè)大型獨(dú)立測(cè)試集。在該數(shù)據(jù)集中,CLAIRE的表現(xiàn)也顯著高于Theia。

圖2.CLAIRE在測(cè)試數(shù)據(jù)集上比Theia表現(xiàn)更好

圖3.CLAIRE在酵母菌代謝模型數(shù)據(jù)集上比Theia表現(xiàn)更好
通過(guò)一系列嚴(yán)格的評(píng)估,研究人員展示了CLAIRE的強(qiáng)大能力:在酵母代謝模型中,它成功區(qū)分了真實(shí)的酶-反應(yīng)配對(duì)與錯(cuò)誤配對(duì)。代謝模型是生物體內(nèi)代謝反應(yīng)的定量化表示,涵蓋基因、酶、代謝物及其細(xì)胞內(nèi)分布,廣泛應(yīng)用于代謝工程和通量平衡分析等領(lǐng)域。CLAIRE的加入使得研究人員能夠更高效地分析和注釋反應(yīng)網(wǎng)絡(luò),為代謝研究提供了全新可能。
此外,CLAIRE在逆合成路徑規(guī)劃和藥物代謝預(yù)測(cè)等關(guān)鍵領(lǐng)域展示出巨大應(yīng)用潛力。逆合成預(yù)測(cè)旨在推斷生成目標(biāo)化合物所需的原料及反應(yīng)路徑。在這一過(guò)程中,多個(gè)中間產(chǎn)物可能生成大量候選反應(yīng)。通過(guò)CLAIRE預(yù)測(cè)的EC編號(hào),可為這些反應(yīng)分配相關(guān)酶,大幅提升最終目標(biāo)化合物成功合成的可能性。另外,藥物在人體內(nèi)的代謝轉(zhuǎn)化及路徑是評(píng)估其安全性和有效性的重要環(huán)節(jié)。通過(guò)對(duì)潛在反應(yīng)注釋EC編號(hào),CLAIRE能夠清晰描繪可能的藥物代謝路徑,為毒性評(píng)估及藥物開(kāi)發(fā)提供有力支持。總而言之,該項(xiàng)成果在代謝工程和合成生物學(xué)領(lǐng)域中有著廣泛的應(yīng)用。
中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院合成生物學(xué)研究所研究員羅小舟為本文的通訊作者,團(tuán)隊(duì)成員博士后曾梓碩為文章的第一作者。該工作獲得了深圳合成生物學(xué)創(chuàng)新研究院的支持。
附件下載: