Advanced Science | 多模態(tài)蛋白表征方法及其遷移性量化
5月30日,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院數(shù)字所生物醫(yī)學(xué)信息中心殷鵬團(tuán)隊(duì)在Advanced Science (IF:17.51)在線發(fā)表了最新研究成果,題為“A Multimodal Protein Representation Framework for Quantifying Transferability Across Biochemical Downstream Tasks”。該工作提出了一種多模態(tài)蛋白質(zhì)表征方法,通過(guò)融合多種蛋白質(zhì)模態(tài),包括序列、結(jié)構(gòu)和基因本體(GO)信息來(lái)實(shí)現(xiàn)對(duì)蛋白的高效表征。同時(shí),提出了一種基于最優(yōu)傳輸?shù)奶卣骺臻g表示度量,用于量化從預(yù)訓(xùn)練的多模態(tài)表征到下游任務(wù)的動(dòng)態(tài)遷移性。這種度量可以有效地捕捉任務(wù)間的分布差異,并預(yù)測(cè)任務(wù)間的適應(yīng)性。這項(xiàng)研究的成果有助于更好地理解蛋白質(zhì)的性質(zhì)和功能,為計(jì)算生物學(xué)領(lǐng)域的研究提供了新的工具和方法。助理研究員胡帆博士為論文的第一作者,數(shù)字所碩士研究生胡奕紳、張維鴻為共同一作。潘毅教授為論文的共同作者,殷鵬副研究員為論文的通訊作者。

文章上線截圖
蛋白質(zhì)是生命的物質(zhì)基礎(chǔ),是構(gòu)成細(xì)胞的最基本的有機(jī)物,擔(dān)當(dāng)著生命活動(dòng)承擔(dān)者的角色。針對(duì)蛋白質(zhì)的表征學(xué)習(xí),簡(jiǎn)單來(lái)說(shuō),就是通過(guò)計(jì)算機(jī)算法將蛋白質(zhì)的復(fù)雜信息轉(zhuǎn)化為一種可以被計(jì)算機(jī)理解和處理的形式,如向量、矩陣等。其意義在于使我們能夠利用計(jì)算機(jī)的強(qiáng)大計(jì)算能力來(lái)研究和理解蛋白質(zhì)的復(fù)雜性,以及預(yù)測(cè)蛋白質(zhì)的行為。大多數(shù)現(xiàn)有的蛋白質(zhì)表示方法都來(lái)自于為自然語(yǔ)言文本設(shè)計(jì)的自監(jiān)督語(yǔ)言模型。然而,蛋白質(zhì)的結(jié)構(gòu)和功能是復(fù)雜的,且在不同的生物環(huán)境中可能會(huì)發(fā)生變化。因此,如何將蛋白質(zhì)的序列、結(jié)構(gòu)和功能進(jìn)行有效融合,以掌握更豐富的多模態(tài)表征信息,進(jìn)而提升下游任務(wù)的性能,如蛋白質(zhì)功能和蛋白-蛋白結(jié)合預(yù)測(cè)等,是一個(gè)重要的挑戰(zhàn)。另一方面,現(xiàn)有研究表明,下游任務(wù)通??梢詮念A(yù)訓(xùn)練模型的信息遷移中受益。那么,是否能量化這種遷移性,從而確定模型的預(yù)訓(xùn)練與下游任務(wù)間的定量關(guān)系以及任務(wù)間特征空間的分布與其相互間遷移性的定量關(guān)系?解決這些問(wèn)題對(duì)于蛋白表征的訓(xùn)練及應(yīng)用具有重要意義。
這項(xiàng)工作使用的數(shù)據(jù)如圖1右上所示,包含蛋白序列、結(jié)構(gòu)、功能注釋數(shù)據(jù)以及蛋白細(xì)粒度如motif、domain、region等信息。提出的多模態(tài)融合表征框架包括四個(gè)主要組成部分(圖1左):1)蛋白質(zhì)序列、結(jié)構(gòu)和GO的特征提取。2)通過(guò)自注意力機(jī)制對(duì)蛋白質(zhì)序列和結(jié)構(gòu)進(jìn)行token-level的局部對(duì)齊。然后將序列-結(jié)構(gòu)特征與GO特征進(jìn)行全局對(duì)齊。3)使用五個(gè)特定的預(yù)訓(xùn)練目標(biāo)對(duì)多模態(tài)模型進(jìn)行預(yù)訓(xùn)練。4)將得到的蛋白質(zhì)表示應(yīng)用于下游任務(wù)和跨任務(wù)學(xué)習(xí)過(guò)程量化。
該方法得到的蛋白多模態(tài)表征在多項(xiàng)蛋白相關(guān)的下游任務(wù)中取得了優(yōu)異表現(xiàn),如蛋白穩(wěn)定性預(yù)測(cè)、蛋白-蛋白互作預(yù)測(cè)等。另一方面,這項(xiàng)工作提出了一種新的跨任務(wù)遷移性度量方法(OTFRM),用于量化從預(yù)訓(xùn)練表征到相關(guān)下游任務(wù)以及下游任務(wù)間相互的動(dòng)態(tài)遷移性。研究者計(jì)算了這些下游任務(wù)之間的成對(duì)距離,并觀察到了任務(wù)間特征空間分布和適應(yīng)性之間的強(qiáng)相關(guān)性(圖2)。該度量方法可用于評(píng)估跨任務(wù)學(xué)習(xí)過(guò)程,預(yù)測(cè)適應(yīng)性,引導(dǎo)各種任務(wù)的微調(diào),并指導(dǎo)蛋白質(zhì)表征學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)和訓(xùn)練目標(biāo)設(shè)計(jì)。
該研究的成果可應(yīng)用于多類蛋白相關(guān)的下游任務(wù)包括蛋白性質(zhì)和功能預(yù)測(cè)、蛋白-蛋白互作預(yù)測(cè)、蛋白-藥物互作預(yù)測(cè)等。并且,提出的遷移性度量方法有助于提高預(yù)訓(xùn)練模型在特定下游任務(wù)的性能,具有廣泛的應(yīng)用前景。
該研究得到了中國(guó)科學(xué)院戰(zhàn)略優(yōu)先研究計(jì)劃、國(guó)家自然科學(xué)基金委、廣東省科技廳、深圳市科創(chuàng)委等科技項(xiàng)目的資助。

圖1. 多模態(tài)蛋白表征框架及數(shù)據(jù)

圖2. 跨任務(wù)遷移性度量方法
附件下載: