Nucleic Acids Research|深圳先進院研發(fā) bioGraph AI模型 解析癌癥跨組學調(diào)控機制 發(fā)現(xiàn)潛在治療靶
癌癥發(fā)生發(fā)展,并不是因為某一個基因“變了”這么簡單,而是 RNA、蛋白質(zhì)和蛋白修飾之間層層傳遞、相互影響的系統(tǒng)性失衡。然而,當前癌癥多組學研究仍面臨一個關鍵瓶頸:我們已經(jīng)能夠分別測量轉(zhuǎn)錄組、蛋白組和磷酸化蛋白組,卻很難真正看清這些分子層級之間如何連接、異常信號如何跨層級傳遞、又如何共同影響腫瘤惡性進展和患者預后。怎樣打通轉(zhuǎn)錄組、蛋白組和磷酸化蛋白組之間的信息傳遞斷層,成為精準腫瘤學研究亟待解決的重要問題。
近日,中國科學院深圳先進技術研究院(以下簡稱“深圳先進院”)生物醫(yī)學與健康工程研究所、醫(yī)學成像科學與技術系統(tǒng)全國重點實驗室研究團隊在Nucleic Acids Research?期刊發(fā)表最新研究論文 “Discovering proteo-transcriptomic networks via biologically informed heterogeneous graph learning”。該研究提出了一種名為 bioGraph 的生物學先驗異質(zhì)圖學習方法,用于從轉(zhuǎn)錄組、蛋白組和磷酸化蛋白組數(shù)據(jù)中系統(tǒng)發(fā)現(xiàn)癌癥相關的蛋白-轉(zhuǎn)錄組調(diào)控網(wǎng)絡,為解析癌癥跨組學調(diào)控機制和發(fā)現(xiàn)潛在治療靶點提供了新的計算工具。深圳先進院生物醫(yī)學與健康工程研究所李志成研究員、梁棟研究員和鄭州大學第一附屬醫(yī)院張振宇主任醫(yī)師為共同通訊作者。深圳先進院生物醫(yī)學與健康工程研究所段靜嫻研究員為本文第一作者,首都醫(yī)科大學附屬北京天壇醫(yī)院劉亞歐主任和鄭州大學第一附屬醫(yī)院裴東嶺醫(yī)生為共同第一作者。該研究獲得國家自然科學基金、國家重點研發(fā)計劃等項目的支持。
與傳統(tǒng)多組學整合方法不同,bioGraph 并不是簡單地把不同組學數(shù)據(jù)拼接在一起,而是將癌癥分子系統(tǒng)重新組織成一個更接近真實生物學過程的三層網(wǎng)絡(圖2)。在這個網(wǎng)絡中,mRNA、蛋白質(zhì)和磷酸化蛋白分別位于三個不同層級;同一層內(nèi)部的連線表示該組學層面內(nèi)的分子相互作用;不同層之間的連線則表示 RNA 到蛋白、蛋白到磷酸化修飾之間的跨組學連接。通過這種設計,bioGraph 可以模擬遺傳信息從轉(zhuǎn)錄、翻譯到翻譯后修飾的層級傳遞過程,從而捕捉傳統(tǒng)方法難以解析的跨組學調(diào)控關系。
為了避免 AI 模型在高維、小樣本的多組學數(shù)據(jù)中盲目學習,研究團隊進一步將已有生物學知識引入模型構建過程。bioGraph 利用 KEGG 通路數(shù)據(jù)庫定義具有明確生物功能的基因節(jié)點,并結合 STRING 蛋白互作數(shù)據(jù)庫構建組學內(nèi)部的分子連接;同時,將同一基因?qū)?RNA、蛋白和磷酸化位點連接起來,形成跨組學信息傳遞通道。也就是說,bioGraph 不是讓模型在海量變量中無規(guī)則搜索,而是給 AI 提供了一張“生物學地圖”,讓模型沿著已有生物學規(guī)律去發(fā)現(xiàn)新的癌癥調(diào)控網(wǎng)絡。
研究團隊在四類癌癥數(shù)據(jù)集中系統(tǒng)驗證了 bioGraph 的性能,包括膠質(zhì)母細胞瘤、兒童低級別膠質(zhì)瘤、結腸腺癌和胰腺導管腺癌(圖3)。結果顯示,在患者預后預測任務中,bioGraph 在四類癌癥中均取得最高的平均交叉驗證 C-index,整體優(yōu)于單一轉(zhuǎn)錄組、蛋白組或磷酸化蛋白組模型,也優(yōu)于多個代表性多組學或圖學習模型。進一步分析發(fā)現(xiàn),bioGraph 生成的風險評分能夠?qū)⒒颊邉澐譃楦唢L險和低風險人群,且兩組患者在訓練集和驗證集中均表現(xiàn)出顯著生存差異,提示該模型具有較好的預后分層能力。
bioGraph 的價值并不止于預測更準。在癌癥研究中,預測模型如果只能給出一個風險分數(shù),卻不能解釋風險來自哪里,往往難以轉(zhuǎn)化為新的機制認識或治療策略。bioGraph 的優(yōu)勢在于,它能夠把風險預測進一步追溯到具體的跨組學網(wǎng)絡、關鍵通路和樞紐基因,使 AI 模型從單純的預后工具轉(zhuǎn)變?yōu)闄C制發(fā)現(xiàn)工具。
通過跨組學網(wǎng)絡分析,研究團隊識別出多個具有潛在跨癌種意義的調(diào)控樞紐基因。其中,MAP4 成為后續(xù)重點驗證的候選分子。值得注意的是,MAP4 并不是傳統(tǒng)差異表達分析優(yōu)先發(fā)現(xiàn)的基因,在較小發(fā)現(xiàn)隊列中也未表現(xiàn)出顯著預后相關性;但 bioGraph 通過跨組學相互作用結構發(fā)現(xiàn)了其潛在重要性。這說明,該方法有可能發(fā)現(xiàn)那些“表達變化不突出、但網(wǎng)絡作用很關鍵”的隱藏調(diào)控因子。隨后,研究團隊進一步在外部數(shù)據(jù)中驗證了 MAP4 的臨床相關性。在細胞實驗中,研究人員通過慢病毒感染在 T98G 和 U251 膠質(zhì)母細胞瘤細胞系中沉默 MAP4,發(fā)現(xiàn) MAP4 下調(diào)后,腫瘤細胞的自我更新、遷移和增殖能力明顯減弱,細胞凋亡增加,提示 MAP4 可能是促進膠質(zhì)瘤惡性行為的重要因子(圖4)。
總體來看,該研究提出的 bioGraph 為癌癥多組學研究提供了一種新的思路:不是把多組學數(shù)據(jù)簡單相加,而是按照生物學規(guī)律把它們連接起來;不是只尋找表達差異最大的分子,而是尋找跨組學網(wǎng)絡中真正具有調(diào)控意義的關鍵節(jié)點;不是只追求預測準確率,而是進一步把模型預測轉(zhuǎn)化為可解釋的生物學網(wǎng)絡和潛在治療靶點。

圖1:文章上線截圖

圖2:bioGraph的三層網(wǎng)絡設計示意圖

圖3:bioGraph在四類癌癥數(shù)據(jù)集中的預后預測效果

圖4:細胞實驗證實MAP4對膠質(zhì)瘤惡性行為的影響作用
附件下載: