Nature Machine Intelligence | 通過自適應(yīng)圖神經(jīng)網(wǎng)絡(luò)預(yù)測未知抗體的中和性
近日,深圳先進技術(shù)研究院數(shù)字所生物醫(yī)學(xué)信息中心吳紅艷團隊聯(lián)合商湯科技、復(fù)旦大學(xué)開發(fā)了一種快速篩查未知抗體的中和性的計算方法,在Nature Machine Intelligence (IF:25.912)上以共同通訊發(fā)表題為“Predicting unseen antibodies’neutralizability via adaptive graph neural networks”的文章。深圳先進技術(shù)研究院吳紅艷團隊和商湯科技共同設(shè)計了算法、分析了算法結(jié)果,并在復(fù)旦大學(xué)的濕實驗數(shù)據(jù)上進行了驗證。?
?
?研究人員提出了一種自適應(yīng)圖學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)不需要抗原抗體的3D結(jié)構(gòu)及領(lǐng)域知識,自動進化學(xué)習(xí)到影響抗原、抗體結(jié)合以及親和力的結(jié)構(gòu)特征;自適應(yīng)學(xué)習(xí)得到的圖網(wǎng)絡(luò)具有豐富的生物學(xué)意義。以新冠為例,在抗原方面,算法量化了病毒變異的程度,加強了對病毒的生物學(xué)認(rèn)識,有望用于指導(dǎo)對抗病毒的策略;在抗體方面,識別了新冠抗體的重要氨基酸序列及位置,對抗體人工合成有重要參考意義;算法推薦了廣譜抗體,可以加強對抗病毒的變異。算法在HIV、新冠、流感、登革熱四種病毒上得到驗證,具有良好的泛化性能。?
?
?
?
抗原是侵入機體的外來物質(zhì),包括細(xì)菌、病毒等。?抗體是機體在抗原刺激下,由B細(xì)胞分化成的漿細(xì)胞所產(chǎn)生的、可與抗原發(fā)生特異性結(jié)合反應(yīng)的免疫球蛋白??贵w對抗原的高特異性和高親和力使得抗體藥具有靶向性強、副作用小和療效顯著等優(yōu)點,因而在疾病的診斷和治療中顯示出其他類型藥物無可比擬的優(yōu)勢,是治療包括癌癥及自身免疫性疾病在內(nèi)的重要藥物。人體在病毒刺激下可產(chǎn)生約1020種抗體,加上人工合成的抗體,未知抗體空間巨大。然而,其中僅僅很小一部分抗體對特定抗原起作用。用濕實驗來篩選能中和抗原的抗體耗時耗力,開發(fā)快速篩查中和抗體的計算方法十分必要。?
計算抗體對抗原的中和能力面臨著多方面的挑戰(zhàn):(1)抗原抗體的結(jié)構(gòu)未知,結(jié)合位點未知??贵w與抗原結(jié)合時,它僅與被稱為抗原表位的蛋白區(qū)域結(jié)合,而不是與整個蛋白區(qū)域結(jié)合(新冠有超過1200氨基酸)。通常,表位長度約為5或6個氨基酸??乖挚梢园鄠€不同的表位。另外,病毒會不斷地變異,人們對病毒的表位的特性認(rèn)識要經(jīng)歷漫長的不斷深入的過程。種種因素導(dǎo)致人們對抗原抗體的認(rèn)知仍然十分有限,提取抗原抗體的有效特征十分困難;(2)樣本量少是本研究遇到的另外一個挑戰(zhàn),例如流感病毒和登革熱病毒都只有幾百條中和反應(yīng)數(shù)據(jù),遠(yuǎn)遠(yuǎn)不夠訓(xùn)練深度學(xué)習(xí)模型;(3)沒有生物學(xué)意義的模型對人們改善對抗原抗體的理解是什么有限的,如何增加模型的可解釋性以加強模型的生物學(xué)意義也是本課題要解決的難點。?
?
針對以上挑戰(zhàn),課題設(shè)計了動態(tài)自適應(yīng)圖神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)具有以下優(yōu)點:(1)不同于現(xiàn)有的Graph Neural Networks(GCN),網(wǎng)絡(luò)的邊權(quán)重和節(jié)點在訓(xùn)練的過程中自動調(diào)整抗原抗體表征及其關(guān)系,最終形成抗原/抗體間的最有效關(guān)聯(lián)。自適應(yīng)圖為模型提供了豐富的生物學(xué)解釋;(2)算法通過一個神經(jīng)網(wǎng)絡(luò)經(jīng)反向傳播不斷學(xué)習(xí)抗原/抗體的特征表達,在領(lǐng)域知識匱乏的前提下有效提取抗原抗體特征,學(xué)習(xí)到的特征為自適應(yīng)網(wǎng)絡(luò)的節(jié)點;(3)課題分別設(shè)計了局部和全局學(xué)習(xí)模塊,學(xué)習(xí)抗原/抗體之間的反應(yīng)和親和性;(4)算法采用遷移學(xué)習(xí)克服數(shù)據(jù)量小的難題。模型性能顯著超越其他基線方法。模型框架如圖1所示:?
?
圖1: 模型的整體框架?
?
算法從以下幾個層面加強對抗原和抗體的生物學(xué)理解:(1)自適應(yīng)圖量化抗原/抗體間的相似性,該結(jié)果可以用于指導(dǎo)對病毒變異的理解,見下表1;(2)識別了抗體的重要的氨基酸序列,該發(fā)現(xiàn)有望指導(dǎo)抗體人工設(shè)計,見圖2;(3)新冠廣譜抗體推薦,推薦的廣譜抗體有望用于對抗病毒的變異,見表2。?
表1:自適應(yīng)關(guān)系圖有效地量化了抗原間的不同:相比于其他病毒,Delta 顯著不同于Alpha和Beta,這與Delta癥狀與野生毒株的癥狀表現(xiàn)不同相一致;Omicron與自身的相似性只有0.84,該值反映出Omicron亞型間的差異較大。?
?
?
?
?
?圖2: 根據(jù)特征學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的權(quán)重,我們識別了抗體的具有重要性的k-mers。對于重鏈(上面4行),最重要的3-mer序列位于重鏈尾部,第2、3重要的3-mer位于連續(xù)的第44到 47個氨基酸;對于輕鏈(下面3行),最重要的3-mer位于輕鏈中間,而2、3重要的3-mer也比較靠近。?
?
?表2:?推薦了50個潛在的中和新冠的抗體。其中的5個已經(jīng)被驗證,除去9個已有不同的結(jié)論之外,另外的36個抗體有待驗證,詳請參見原文。?
?
?另外,課題利用HIV的數(shù)據(jù)訓(xùn)練的模型對流感和登革熱進行了遷移學(xué)習(xí),模型性能表現(xiàn)良好。?該研究獲得了中國科學(xué)院先導(dǎo)專項(B類)“多維大數(shù)據(jù)驅(qū)動的中國人群精準(zhǔn)健康研究”“臨床醫(yī)學(xué)大數(shù)據(jù)研究平臺建設(shè)及轉(zhuǎn)化應(yīng)用”的支持。?
附件下載: