專家點評 Nature Biomedical Engineering | 深圳先進院開發(fā)蛋白質(zhì)語言模型 解鎖遠源抗菌肽
抗生素的長期過度使用正在加劇全球耐藥危機,傳統(tǒng)治療手段的有效性持續(xù)下降。與此同時,畜牧業(yè)“減抗、限抗”政策深入推進,使養(yǎng)殖生產(chǎn)面臨新的感染防控挑戰(zhàn)。開發(fā)新型、安全、高效的抗菌分子,已成為醫(yī)療與農(nóng)業(yè)領(lǐng)域共同面對的緊迫課題。
抗菌肽(Antimicrobial peptides,AMPs)是一類長度通常小于100個氨基酸的天然小分子多肽,廣泛存在于動物、植物和微生物中,是先天免疫系統(tǒng)的重要組成部分。其通常通過膜破壞或多靶點機制發(fā)揮抗菌作用,耐藥產(chǎn)生難度相對較低,并具有一定免疫調(diào)節(jié)潛力,被認為是理想的抗生素替代方向。然而,AMP規(guī)?;_發(fā)長期受制于發(fā)現(xiàn)效率低下。傳統(tǒng)方法依賴序列同源性搜索或理化規(guī)則篩選,本質(zhì)上是在已知AMP的“鄰域空間”內(nèi)進行局部擴展,難以識別進化上遠源但可能具有高活性的全新序列。因此,突破“相似性驅(qū)動”的技術(shù)框架,建立對低同源甚至無明顯同源序列的識別能力,成為該領(lǐng)域亟待解決的關(guān)鍵問題。
3月3日,中國科學(xué)院深圳先進技術(shù)研究院(簡稱“深圳先進院”)定量合成生物學(xué)全國重點實驗室、合成生物學(xué)研究所戴磊研究員課題組聯(lián)合香港中文大學(xué)李煜教授團隊,在Nature Biomedical Engineering發(fā)表了題為“Uncovering evolutionarily remote and highly potent antimicrobial peptides with protein language models”的研究論文。該研究開發(fā)了基于蛋白質(zhì)語言模型和深度學(xué)習(xí)的抗菌肽挖掘新方法HMD-AMP,成功突破傳統(tǒng)技術(shù)瓶頸,挖掘出大量進化遠源、高活性且低毒性的抗菌肽,為新型抗菌藥物研發(fā)提供了新策略和候選分子。
AI賦能AMPs識別:從“相似性搜索”到“語義理解”
研究團隊開發(fā)了基于蛋白質(zhì)語言模型的抗菌肽挖掘工具——HMD-AMP。該框架利用經(jīng)短肽數(shù)據(jù)微調(diào)的蛋白語言模型ESM-2提取深層序列特征,并結(jié)合分層多任務(wù)深度森林分類器,構(gòu)建了端到端預(yù)測體系(圖1)。與傳統(tǒng)方法不同,蛋白質(zhì)語言模型無需依賴顯式序列比對,而是通過大規(guī)模無監(jiān)督學(xué)習(xí)捕捉蛋白序列中的“隱式語義表示”——即進化與結(jié)構(gòu)層面的深層規(guī)律。HMD-AMP不僅能夠精準區(qū)分抗菌肽與非抗菌肽,還能預(yù)測抗菌譜類型,實現(xiàn)更精細的功能評估。
在多項基準測試中,HMD-AMP均表現(xiàn)出優(yōu)異性能。尤其在低序列相似性、低結(jié)構(gòu)相似性的嚴苛測試條件下,其表現(xiàn)顯著優(yōu)于現(xiàn)有方法,達到國際先進水平(圖2)。同時,模型預(yù)測分數(shù)能夠有效反映實際抑菌活性,為高活性分子的快速篩選提供可靠依據(jù)。
3700萬條候選序列:大規(guī)模遠源AMP挖掘
為驗證模型在真實場景中的能力,研究團隊將HMD-AMP應(yīng)用于來自9種哺乳動物腸道的1850個微生物基因組,成功預(yù)測出超過3700萬條抗菌肽候選序列,其中大部分與已知AMP序列相似性低于40%。在豬腸道微生物組及宿主基因組中,團隊從超過14億條肽序列中篩選出7647條候選序列。經(jīng)實驗驗證,62條高置信候選中有52條表現(xiàn)出顯著抗菌活性,陽性率達84%。其中30條為序列新穎的遠源AMP(與模型訓(xùn)練集序列相似度<40%),4條與已知AMPs序列相似性不足10%(圖3)。進一步的跨宿主驗證顯示,在其他哺乳動物腸道來源的29條候選中,有22條表現(xiàn)出良好抗菌活性,其中18條為遠源新序列。
在74條經(jīng)驗證的AMP中,48條為序列新穎的遠源AMP。這些分子雖然序列差異顯著,但保留了典型AMP的結(jié)構(gòu)折疊和功能基序,說明模型捕捉到了進化過程中保守的功能特征,而非簡單的表面序列模式(圖4)。
研究團隊對14條活性較高的AMP進行了深入評估。結(jié)果顯示,其中8條(含4條遠源新序列)的抗菌活性可與多粘菌素B、萬古霉素等臨床藥物相媲美。溶血與細胞毒性實驗表明,這些高活性AMP未表現(xiàn)出明顯毒性,顯示出良好的安全性(圖5)。值得關(guān)注的是,抗菌肽Swine_2在小鼠腹膜炎模型中顯著提高感染小鼠存活率,驗證了其體內(nèi)治療潛力。
該研究的核心創(chuàng)新在于,將蛋白語言模型的進化特征捕捉能力與深度學(xué)習(xí)框架相結(jié)合,首次實現(xiàn)對進化遠源抗菌肽的系統(tǒng)性挖掘,突破了傳統(tǒng)方法依賴序列同源性的限制。同時,研究系統(tǒng)挖掘了哺乳動物宿主及腸道微生物組中的抗菌肽資源,發(fā)現(xiàn)宿主來源AMP往往兼具高活性與低毒性優(yōu)勢,為新型抗菌藥物開發(fā)提供了重要資源。未來,若進一步結(jié)合肽穩(wěn)定性優(yōu)化、遞送系統(tǒng)改造及體內(nèi)安全性提升策略,這些遠源AMP有望在人類醫(yī)療與畜禽養(yǎng)殖等領(lǐng)域?qū)崿F(xiàn)轉(zhuǎn)化應(yīng)用,為應(yīng)對全球抗生素耐藥危機提供新的技術(shù)路徑。
深圳先進院合成所戴磊研究員和香港中文大學(xué)李煜教授是本研究的共同通訊作者。香港中文大學(xué)余沁澤博士與深圳先進院合成所副研究員劉紅賓博士、施海梅博士是本研究的共同第一作者。該項研究成果獲得國家重點研發(fā)計劃、國家自然科學(xué)基金、深圳市醫(yī)學(xué)研究專項資金以及深圳合成生物學(xué)創(chuàng)新研究院等項目的資助。
專家點評
譙仕彥(中國工程院院士,中國農(nóng)業(yè)大學(xué))
抗菌肽在農(nóng)業(yè)、食品安全、生物醫(yī)藥等領(lǐng)域的重要性持續(xù)上升。尤其在畜牧業(yè)“減抗、限抗”政策深入推進、耐藥菌加速擴散的背景下,傳統(tǒng)抗生素依賴模式正面臨系統(tǒng)性挑戰(zhàn)。相較于傳統(tǒng)小分子抗生素,抗菌肽多通過膜破壞或多靶點機制發(fā)揮作用,耐藥產(chǎn)生難度相對較高,并具備一定免疫調(diào)節(jié)潛力,因此被視為抗生素替代的重要方向。然而,抗菌肽應(yīng)用的關(guān)鍵瓶頸在于發(fā)現(xiàn)策略的局限。傳統(tǒng)方法主要依賴序列同源性搜索或理化特征規(guī)則篩選,本質(zhì)上是在已知抗菌肽序列的“鄰域空間”內(nèi)做局部擴展,其有效性高度依賴數(shù)據(jù)庫覆蓋度。對于進化快速、序列高度多樣的短肽而言,這種“相似性驅(qū)動”范式存在天然盲區(qū),難以識別遠緣的功能序列。與此同時,宿主基因組與復(fù)雜微生物組中蘊含大量未注釋短肽,可能包含豐富的潛在抗菌資源。因此,從廣泛生物來源系統(tǒng)性挖掘新穎序列,并建立對低同源序列的識別能力,成為該領(lǐng)域亟待突破的核心技術(shù)缺口。
香港中文大學(xué)李煜教授與中國科學(xué)院深圳先進技術(shù)研究院戴磊研究員團隊的工作具有明確的問題導(dǎo)向和方法學(xué)創(chuàng)新意義。該研究引入預(yù)訓(xùn)練蛋白質(zhì)語言模型,將大規(guī)模無監(jiān)督學(xué)習(xí)所獲得的深層序列表示用于抗菌肽功能預(yù)測,實現(xiàn)了從“顯式相似性檢索”向“隱式語義表征推斷”的轉(zhuǎn)變。該工作顯著拓展了可探索的序列空間邊界,使模型能夠識別低同源性的遠緣抗菌肽序列,突破傳統(tǒng)方法的局限。該研究驗證了預(yù)測方法在豬、牛等不同哺乳動物基因組和宿主共生微生物組的可遷移性,有望成為功能多肽發(fā)現(xiàn)與應(yīng)用的重要技術(shù)引擎。

文章上線截圖

圖1. HMD-AMP模型框架

圖2. HMD-AMP在多種測試中表現(xiàn)優(yōu)異

圖3. 對豬腸道微生物組和宿主基因組進行AMPs挖掘

圖4. 本研究發(fā)現(xiàn)的遠源AMPs的結(jié)構(gòu)和序列特征

圖5. 本研究發(fā)現(xiàn)的AMPs殺菌活性與安全性評估
附件下載: