專家點(diǎn)評(píng) Nature Biomedical Engineering | 深圳先進(jìn)院開發(fā)蛋白質(zhì)語(yǔ)言模型 解鎖遠(yuǎn)源抗菌肽
抗生素的長(zhǎng)期過度使用正在加劇全球耐藥危機(jī),傳統(tǒng)治療手段的有效性持續(xù)下降。與此同時(shí),畜牧業(yè)“減抗、限抗”政策深入推進(jìn),使養(yǎng)殖生產(chǎn)面臨新的感染防控挑戰(zhàn)。開發(fā)新型、安全、高效的抗菌分子,已成為醫(yī)療與農(nóng)業(yè)領(lǐng)域共同面對(duì)的緊迫課題。
抗菌肽(Antimicrobial peptides,AMPs)是一類長(zhǎng)度通常小于100個(gè)氨基酸的天然小分子多肽,廣泛存在于動(dòng)物、植物和微生物中,是先天免疫系統(tǒng)的重要組成部分。其通常通過膜破壞或多靶點(diǎn)機(jī)制發(fā)揮抗菌作用,耐藥產(chǎn)生難度相對(duì)較低,并具有一定免疫調(diào)節(jié)潛力,被認(rèn)為是理想的抗生素替代方向。然而,AMP規(guī)?;_發(fā)長(zhǎng)期受制于發(fā)現(xiàn)效率低下。傳統(tǒng)方法依賴序列同源性搜索或理化規(guī)則篩選,本質(zhì)上是在已知AMP的“鄰域空間”內(nèi)進(jìn)行局部擴(kuò)展,難以識(shí)別進(jìn)化上遠(yuǎn)源但可能具有高活性的全新序列。因此,突破“相似性驅(qū)動(dòng)”的技術(shù)框架,建立對(duì)低同源甚至無(wú)明顯同源序列的識(shí)別能力,成為該領(lǐng)域亟待解決的關(guān)鍵問題。
3月3日,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院(簡(jiǎn)稱“深圳先進(jìn)院”)定量合成生物學(xué)全國(guó)重點(diǎn)實(shí)驗(yàn)室、合成生物學(xué)研究所戴磊研究員課題組聯(lián)合香港中文大學(xué)李煜教授團(tuán)隊(duì),在Nature Biomedical Engineering發(fā)表了題為“Uncovering evolutionarily remote and highly potent antimicrobial peptides with protein language models”的研究論文。該研究開發(fā)了基于蛋白質(zhì)語(yǔ)言模型和深度學(xué)習(xí)的抗菌肽挖掘新方法HMD-AMP,成功突破傳統(tǒng)技術(shù)瓶頸,挖掘出大量進(jìn)化遠(yuǎn)源、高活性且低毒性的抗菌肽,為新型抗菌藥物研發(fā)提供了新策略和候選分子。
AI賦能AMPs識(shí)別:從“相似性搜索”到“語(yǔ)義理解”
研究團(tuán)隊(duì)開發(fā)了基于蛋白質(zhì)語(yǔ)言模型的抗菌肽挖掘工具——HMD-AMP。該框架利用經(jīng)短肽數(shù)據(jù)微調(diào)的蛋白語(yǔ)言模型ESM-2提取深層序列特征,并結(jié)合分層多任務(wù)深度森林分類器,構(gòu)建了端到端預(yù)測(cè)體系(圖1)。與傳統(tǒng)方法不同,蛋白質(zhì)語(yǔ)言模型無(wú)需依賴顯式序列比對(duì),而是通過大規(guī)模無(wú)監(jiān)督學(xué)習(xí)捕捉蛋白序列中的“隱式語(yǔ)義表示”——即進(jìn)化與結(jié)構(gòu)層面的深層規(guī)律。HMD-AMP不僅能夠精準(zhǔn)區(qū)分抗菌肽與非抗菌肽,還能預(yù)測(cè)抗菌譜類型,實(shí)現(xiàn)更精細(xì)的功能評(píng)估。
在多項(xiàng)基準(zhǔn)測(cè)試中,HMD-AMP均表現(xiàn)出優(yōu)異性能。尤其在低序列相似性、低結(jié)構(gòu)相似性的嚴(yán)苛測(cè)試條件下,其表現(xiàn)顯著優(yōu)于現(xiàn)有方法,達(dá)到國(guó)際先進(jìn)水平(圖2)。同時(shí),模型預(yù)測(cè)分?jǐn)?shù)能夠有效反映實(shí)際抑菌活性,為高活性分子的快速篩選提供可靠依據(jù)。
3700萬(wàn)條候選序列:大規(guī)模遠(yuǎn)源AMP挖掘
為驗(yàn)證模型在真實(shí)場(chǎng)景中的能力,研究團(tuán)隊(duì)將HMD-AMP應(yīng)用于來(lái)自9種哺乳動(dòng)物腸道的1850個(gè)微生物基因組,成功預(yù)測(cè)出超過3700萬(wàn)條抗菌肽候選序列,其中大部分與已知AMP序列相似性低于40%。在豬腸道微生物組及宿主基因組中,團(tuán)隊(duì)從超過14億條肽序列中篩選出7647條候選序列。經(jīng)實(shí)驗(yàn)驗(yàn)證,62條高置信候選中有52條表現(xiàn)出顯著抗菌活性,陽(yáng)性率達(dá)84%。其中30條為序列新穎的遠(yuǎn)源AMP(與模型訓(xùn)練集序列相似度<40%),4條與已知AMPs序列相似性不足10%(圖3)。進(jìn)一步的跨宿主驗(yàn)證顯示,在其他哺乳動(dòng)物腸道來(lái)源的29條候選中,有22條表現(xiàn)出良好抗菌活性,其中18條為遠(yuǎn)源新序列。
在74條經(jīng)驗(yàn)證的AMP中,48條為序列新穎的遠(yuǎn)源AMP。這些分子雖然序列差異顯著,但保留了典型AMP的結(jié)構(gòu)折疊和功能基序,說明模型捕捉到了進(jìn)化過程中保守的功能特征,而非簡(jiǎn)單的表面序列模式(圖4)。
研究團(tuán)隊(duì)對(duì)14條活性較高的AMP進(jìn)行了深入評(píng)估。結(jié)果顯示,其中8條(含4條遠(yuǎn)源新序列)的抗菌活性可與多粘菌素B、萬(wàn)古霉素等臨床藥物相媲美。溶血與細(xì)胞毒性實(shí)驗(yàn)表明,這些高活性AMP未表現(xiàn)出明顯毒性,顯示出良好的安全性(圖5)。值得關(guān)注的是,抗菌肽Swine_2在小鼠腹膜炎模型中顯著提高感染小鼠存活率,驗(yàn)證了其體內(nèi)治療潛力。
該研究的核心創(chuàng)新在于,將蛋白語(yǔ)言模型的進(jìn)化特征捕捉能力與深度學(xué)習(xí)框架相結(jié)合,首次實(shí)現(xiàn)對(duì)進(jìn)化遠(yuǎn)源抗菌肽的系統(tǒng)性挖掘,突破了傳統(tǒng)方法依賴序列同源性的限制。同時(shí),研究系統(tǒng)挖掘了哺乳動(dòng)物宿主及腸道微生物組中的抗菌肽資源,發(fā)現(xiàn)宿主來(lái)源AMP往往兼具高活性與低毒性優(yōu)勢(shì),為新型抗菌藥物開發(fā)提供了重要資源。未來(lái),若進(jìn)一步結(jié)合肽穩(wěn)定性優(yōu)化、遞送系統(tǒng)改造及體內(nèi)安全性提升策略,這些遠(yuǎn)源AMP有望在人類醫(yī)療與畜禽養(yǎng)殖等領(lǐng)域?qū)崿F(xiàn)轉(zhuǎn)化應(yīng)用,為應(yīng)對(duì)全球抗生素耐藥危機(jī)提供新的技術(shù)路徑。
深圳先進(jìn)院合成所戴磊研究員和香港中文大學(xué)李煜教授是本研究的共同通訊作者。香港中文大學(xué)余沁澤博士與深圳先進(jìn)院合成所副研究員劉紅賓博士、施海梅博士是本研究的共同第一作者。該項(xiàng)研究成果獲得國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金、深圳市醫(yī)學(xué)研究專項(xiàng)資金以及深圳合成生物學(xué)創(chuàng)新研究院等項(xiàng)目的資助。
專家點(diǎn)評(píng)
譙仕彥(中國(guó)工程院院士,中國(guó)農(nóng)業(yè)大學(xué))
抗菌肽在農(nóng)業(yè)、食品安全、生物醫(yī)藥等領(lǐng)域的重要性持續(xù)上升。尤其在畜牧業(yè)“減抗、限抗”政策深入推進(jìn)、耐藥菌加速擴(kuò)散的背景下,傳統(tǒng)抗生素依賴模式正面臨系統(tǒng)性挑戰(zhàn)。相較于傳統(tǒng)小分子抗生素,抗菌肽多通過膜破壞或多靶點(diǎn)機(jī)制發(fā)揮作用,耐藥產(chǎn)生難度相對(duì)較高,并具備一定免疫調(diào)節(jié)潛力,因此被視為抗生素替代的重要方向。然而,抗菌肽應(yīng)用的關(guān)鍵瓶頸在于發(fā)現(xiàn)策略的局限。傳統(tǒng)方法主要依賴序列同源性搜索或理化特征規(guī)則篩選,本質(zhì)上是在已知抗菌肽序列的“鄰域空間”內(nèi)做局部擴(kuò)展,其有效性高度依賴數(shù)據(jù)庫(kù)覆蓋度。對(duì)于進(jìn)化快速、序列高度多樣的短肽而言,這種“相似性驅(qū)動(dòng)”范式存在天然盲區(qū),難以識(shí)別遠(yuǎn)緣的功能序列。與此同時(shí),宿主基因組與復(fù)雜微生物組中蘊(yùn)含大量未注釋短肽,可能包含豐富的潛在抗菌資源。因此,從廣泛生物來(lái)源系統(tǒng)性挖掘新穎序列,并建立對(duì)低同源序列的識(shí)別能力,成為該領(lǐng)域亟待突破的核心技術(shù)缺口。
香港中文大學(xué)李煜教授與中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院戴磊研究員團(tuán)隊(duì)的工作具有明確的問題導(dǎo)向和方法學(xué)創(chuàng)新意義。該研究引入預(yù)訓(xùn)練蛋白質(zhì)語(yǔ)言模型,將大規(guī)模無(wú)監(jiān)督學(xué)習(xí)所獲得的深層序列表示用于抗菌肽功能預(yù)測(cè),實(shí)現(xiàn)了從“顯式相似性檢索”向“隱式語(yǔ)義表征推斷”的轉(zhuǎn)變。該工作顯著拓展了可探索的序列空間邊界,使模型能夠識(shí)別低同源性的遠(yuǎn)緣抗菌肽序列,突破傳統(tǒng)方法的局限。該研究驗(yàn)證了預(yù)測(cè)方法在豬、牛等不同哺乳動(dòng)物基因組和宿主共生微生物組的可遷移性,有望成為功能多肽發(fā)現(xiàn)與應(yīng)用的重要技術(shù)引擎。

文章上線截圖

圖1. HMD-AMP模型框架

圖2. HMD-AMP在多種測(cè)試中表現(xiàn)優(yōu)異

圖3. 對(duì)豬腸道微生物組和宿主基因組進(jìn)行AMPs挖掘

圖4. 本研究發(fā)現(xiàn)的遠(yuǎn)源AMPs的結(jié)構(gòu)和序列特征

圖5. 本研究發(fā)現(xiàn)的AMPs殺菌活性與安全性評(píng)估
附件下載: