PNAS | 定量解構(gòu)腫瘤微環(huán)境:DeSide助力多種腫瘤內(nèi)細胞豐度的精準預(yù)測
腫瘤微環(huán)境是一個由多種類型細胞組成的復(fù)雜生態(tài)系統(tǒng)。實體腫瘤內(nèi),除了癌細胞之外,還存在數(shù)量可觀的血管內(nèi)皮細胞、成纖維細胞、以及多種免疫細胞,如腫瘤相關(guān)巨噬細胞和腫瘤浸潤淋巴細胞等。大量研究表明,這些不同類型細胞的比例,在多種癌癥類型中與患者的病情進展密切相關(guān)。因此,精準量化腫瘤微環(huán)境中各類細胞的比例,對于深入理解腫瘤的發(fā)生與發(fā)展規(guī)律、優(yōu)化癌癥診療策略等具有重要意義。
在現(xiàn)有的技術(shù)中,流式細胞術(shù)和單細胞RNA測序(scRNA-seq)等實驗方法能夠直接測定腫瘤微環(huán)境中的細胞比例,但這些方法通常成本較高。為解決這一問題,研究人員開發(fā)了多種計算方法以基于低成本的批量RNA測序(bulk RNA-seq)數(shù)據(jù)來估算不同類型細胞的比例,例如EPIC、MuSiC、CIBERSORTx、Scaden、Kassandra等。然而,由于不同腫瘤類型中癌細胞的基因表達譜差異很大,使用單一模型精準預(yù)測多種腫瘤中各類細胞的豐度仍然是一個挑戰(zhàn)。
針對這一難題,中國科學(xué)院深圳先進技術(shù)研究院合成生物學(xué)研究所李雪飛副研究員團隊與香港浸會大學(xué)田亮副教授團隊展開合作,開發(fā)了一種基于深度學(xué)習(xí)與公開單細胞數(shù)據(jù)集的解卷積算法。該算法能夠較精確地估算19種實體腫瘤中16種細胞類型的豐度。

相關(guān)研究成果于11月8日以?“DeSide: A unified deep learning approach for cellular deconvolution of tumor microenvironment”為題在線發(fā)表于PNAS雜志。
合成高質(zhì)量的訓(xùn)練集
該研究整合了來源于6種實體腫瘤類型的12個scRNA-seq數(shù)據(jù)集,為后續(xù)合成虛擬腫瘤bulk RNA-seq數(shù)據(jù)(訓(xùn)練集)提供了更為全面的參考數(shù)據(jù)。該研究提出了一種新的采樣方法segment sampling,從而使得所合成的虛擬腫瘤bulk RNA-seq數(shù)據(jù)中包含更多樣的細胞比例組合。
此外,在合成bulk RNA-seq數(shù)據(jù)時,該研究通過對基因的過濾(gene-level filtering)來保留與每種細胞類型高度相關(guān)的基因,以降低輸入數(shù)據(jù)的維度;再對表達譜進行過濾(GEP-level filtering)以保留與真實腫瘤表達譜相似度較高的樣本。這些創(chuàng)新點共同有效提升了所合成的虛擬腫瘤bulk RNA-seq數(shù)據(jù)的質(zhì)量。
深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的創(chuàng)新點
在深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)結(jié)構(gòu)中,DeSide創(chuàng)新性地采用了兩個全連接網(wǎng)絡(luò):pathway網(wǎng)絡(luò)和GEP網(wǎng)絡(luò),分別從生物信號通路(pathway)和基因表達譜(gene expression profile,GEP)中提取特征信息。其中,pathway網(wǎng)絡(luò)通過引入粗顆粒度的特征,有效提升了輸入數(shù)據(jù)的多樣性。

▲圖1. (a)DeSide的深度神經(jīng)網(wǎng)絡(luò)(DNN)模型結(jié)構(gòu);(b)合成虛擬腫瘤的bulk RNA-seq基因表達譜(GEP)的流程。
此外,考慮到腫瘤細胞的基因表達譜在不同癌癥類型之間差異較大,DeSide采用了sigmoid函數(shù)作為DNN輸出層的激活函數(shù),使輸出總和處于[0,1]區(qū)間。這一設(shè)計先預(yù)測免疫細胞等非癌細胞類型的比例,再通過1減去所有非癌細胞的比例來估算腫瘤細胞的比例,從而有效減少了直接預(yù)測腫瘤細胞比例所帶來的誤差。值得指出的是,在利用深度神經(jīng)網(wǎng)絡(luò)預(yù)測細胞比例的研究方向上,DeSide是首個引入該策略的算法。
與其它算法預(yù)測效果的比較
該研究系統(tǒng)對比了DeSide與現(xiàn)有算法在預(yù)測腫瘤微環(huán)境內(nèi)細胞比例的準確性。結(jié)果表明,DeSide能較好地預(yù)測多種腫瘤類型內(nèi)不同細胞類型的比例(圖2 a,b)。

▲圖2. 對比DeSide與其它算法預(yù)測bulk RNA-seq數(shù)據(jù)中腫瘤細胞比例的能力。CCC為預(yù)測的腫瘤細胞比例與基于基因拷貝數(shù)所估算的腫瘤純度之間的一致相關(guān)性系數(shù)(concordance correlation coefficient,CCC)。數(shù)據(jù)來源于癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫。
同時,即便是與依賴參考數(shù)據(jù)的算法(Reference-based model)相比較,DeSide在特定腫瘤類型上的表現(xiàn)依然出色(圖2c)。值得指出的是,DeSide能較準確地預(yù)測訓(xùn)練集中未包含的癌癥類型,顯示了較好的泛化能力。
DeSide在臨床預(yù)后分析中的應(yīng)用價值
該項研究通過患者生存分析(Survival analysis)探索了DeSide在臨床應(yīng)用中的潛在價值。研究結(jié)果表明,基于DeSide預(yù)測的細胞比例能夠有效的將患者按照病情進展情況進行評估分型,即某些細胞類型或其組合的豐度與患者的生存顯著相關(guān)(圖3)。

▲圖3. 基于DeSide預(yù)測公開數(shù)據(jù)集內(nèi)不同腫瘤的不同細胞類型的比例,從而對患者進行分型與生存分析。
未來,DeSide有望進一步幫助探究不同細胞之間關(guān)鍵的相互作用,從而為尋找潛在的臨床治療靶點提供新的可能。
該研究所開發(fā)的DeSide算法基于公開的單細胞數(shù)據(jù)集與深度學(xué)習(xí)方法,能夠較為準確、高效地估算19種實體腫瘤bulk RNA-seq測序樣本中16種細胞類型的比例。這為深入理解腫瘤發(fā)生與發(fā)展機制、評估患者預(yù)后和制定精準治療策略提供了有力的方法與數(shù)據(jù)支持。
李雪飛副研究員與田亮副教授是本文的共同通訊作者。香港浸會大學(xué)的四年級博士生熊昕與中國科學(xué)院深圳先進技術(shù)研究院研究助理劉燁蓉是本文的共同第一作者。熊昕于2020-2021年在李雪飛課題組擔(dān)任研究助理期間開啟了該課題的研究,隨后,經(jīng)由李雪飛推薦赴田亮課題組攻讀博士學(xué)位。兩個課題組通過緊密合作,聯(lián)合完成了該項研究。
該工作得到了國家重點研發(fā)計劃、中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項、國家自然科學(xué)基金青年與面上項目、廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金面上項目、香港研究資助局、香港中醫(yī)藥發(fā)展基金等多個項目的支持。
附件下載: