PNAS | 定量解構(gòu)腫瘤微環(huán)境:DeSide助力多種腫瘤內(nèi)細(xì)胞豐度的精準(zhǔn)預(yù)測(cè)
腫瘤微環(huán)境是一個(gè)由多種類型細(xì)胞組成的復(fù)雜生態(tài)系統(tǒng)。實(shí)體腫瘤內(nèi),除了癌細(xì)胞之外,還存在數(shù)量可觀的血管內(nèi)皮細(xì)胞、成纖維細(xì)胞、以及多種免疫細(xì)胞,如腫瘤相關(guān)巨噬細(xì)胞和腫瘤浸潤(rùn)淋巴細(xì)胞等。大量研究表明,這些不同類型細(xì)胞的比例,在多種癌癥類型中與患者的病情進(jìn)展密切相關(guān)。因此,精準(zhǔn)量化腫瘤微環(huán)境中各類細(xì)胞的比例,對(duì)于深入理解腫瘤的發(fā)生與發(fā)展規(guī)律、優(yōu)化癌癥診療策略等具有重要意義。
在現(xiàn)有的技術(shù)中,流式細(xì)胞術(shù)和單細(xì)胞RNA測(cè)序(scRNA-seq)等實(shí)驗(yàn)方法能夠直接測(cè)定腫瘤微環(huán)境中的細(xì)胞比例,但這些方法通常成本較高。為解決這一問題,研究人員開發(fā)了多種計(jì)算方法以基于低成本的批量RNA測(cè)序(bulk RNA-seq)數(shù)據(jù)來估算不同類型細(xì)胞的比例,例如EPIC、MuSiC、CIBERSORTx、Scaden、Kassandra等。然而,由于不同腫瘤類型中癌細(xì)胞的基因表達(dá)譜差異很大,使用單一模型精準(zhǔn)預(yù)測(cè)多種腫瘤中各類細(xì)胞的豐度仍然是一個(gè)挑戰(zhàn)。
針對(duì)這一難題,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院合成生物學(xué)研究所李雪飛副研究員團(tuán)隊(duì)與香港浸會(huì)大學(xué)田亮副教授團(tuán)隊(duì)展開合作,開發(fā)了一種基于深度學(xué)習(xí)與公開單細(xì)胞數(shù)據(jù)集的解卷積算法。該算法能夠較精確地估算19種實(shí)體腫瘤中16種細(xì)胞類型的豐度。

相關(guān)研究成果于11月8日以?“DeSide: A unified deep learning approach for cellular deconvolution of tumor microenvironment”為題在線發(fā)表于PNAS雜志。
合成高質(zhì)量的訓(xùn)練集
該研究整合了來源于6種實(shí)體腫瘤類型的12個(gè)scRNA-seq數(shù)據(jù)集,為后續(xù)合成虛擬腫瘤bulk RNA-seq數(shù)據(jù)(訓(xùn)練集)提供了更為全面的參考數(shù)據(jù)。該研究提出了一種新的采樣方法segment sampling,從而使得所合成的虛擬腫瘤bulk RNA-seq數(shù)據(jù)中包含更多樣的細(xì)胞比例組合。
此外,在合成bulk RNA-seq數(shù)據(jù)時(shí),該研究通過對(duì)基因的過濾(gene-level filtering)來保留與每種細(xì)胞類型高度相關(guān)的基因,以降低輸入數(shù)據(jù)的維度;再對(duì)表達(dá)譜進(jìn)行過濾(GEP-level filtering)以保留與真實(shí)腫瘤表達(dá)譜相似度較高的樣本。這些創(chuàng)新點(diǎn)共同有效提升了所合成的虛擬腫瘤bulk RNA-seq數(shù)據(jù)的質(zhì)量。
深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的創(chuàng)新點(diǎn)
在深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)結(jié)構(gòu)中,DeSide創(chuàng)新性地采用了兩個(gè)全連接網(wǎng)絡(luò):pathway網(wǎng)絡(luò)和GEP網(wǎng)絡(luò),分別從生物信號(hào)通路(pathway)和基因表達(dá)譜(gene expression profile,GEP)中提取特征信息。其中,pathway網(wǎng)絡(luò)通過引入粗顆粒度的特征,有效提升了輸入數(shù)據(jù)的多樣性。

▲圖1. (a)DeSide的深度神經(jīng)網(wǎng)絡(luò)(DNN)模型結(jié)構(gòu);(b)合成虛擬腫瘤的bulk RNA-seq基因表達(dá)譜(GEP)的流程。
此外,考慮到腫瘤細(xì)胞的基因表達(dá)譜在不同癌癥類型之間差異較大,DeSide采用了sigmoid函數(shù)作為DNN輸出層的激活函數(shù),使輸出總和處于[0,1]區(qū)間。這一設(shè)計(jì)先預(yù)測(cè)免疫細(xì)胞等非癌細(xì)胞類型的比例,再通過1減去所有非癌細(xì)胞的比例來估算腫瘤細(xì)胞的比例,從而有效減少了直接預(yù)測(cè)腫瘤細(xì)胞比例所帶來的誤差。值得指出的是,在利用深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)細(xì)胞比例的研究方向上,DeSide是首個(gè)引入該策略的算法。
與其它算法預(yù)測(cè)效果的比較
該研究系統(tǒng)對(duì)比了DeSide與現(xiàn)有算法在預(yù)測(cè)腫瘤微環(huán)境內(nèi)細(xì)胞比例的準(zhǔn)確性。結(jié)果表明,DeSide能較好地預(yù)測(cè)多種腫瘤類型內(nèi)不同細(xì)胞類型的比例(圖2 a,b)。

▲圖2. 對(duì)比DeSide與其它算法預(yù)測(cè)bulk RNA-seq數(shù)據(jù)中腫瘤細(xì)胞比例的能力。CCC為預(yù)測(cè)的腫瘤細(xì)胞比例與基于基因拷貝數(shù)所估算的腫瘤純度之間的一致相關(guān)性系數(shù)(concordance correlation coefficient,CCC)。數(shù)據(jù)來源于癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫。
同時(shí),即便是與依賴參考數(shù)據(jù)的算法(Reference-based model)相比較,DeSide在特定腫瘤類型上的表現(xiàn)依然出色(圖2c)。值得指出的是,DeSide能較準(zhǔn)確地預(yù)測(cè)訓(xùn)練集中未包含的癌癥類型,顯示了較好的泛化能力。
DeSide在臨床預(yù)后分析中的應(yīng)用價(jià)值
該項(xiàng)研究通過患者生存分析(Survival analysis)探索了DeSide在臨床應(yīng)用中的潛在價(jià)值。研究結(jié)果表明,基于DeSide預(yù)測(cè)的細(xì)胞比例能夠有效的將患者按照病情進(jìn)展情況進(jìn)行評(píng)估分型,即某些細(xì)胞類型或其組合的豐度與患者的生存顯著相關(guān)(圖3)。

▲圖3. 基于DeSide預(yù)測(cè)公開數(shù)據(jù)集內(nèi)不同腫瘤的不同細(xì)胞類型的比例,從而對(duì)患者進(jìn)行分型與生存分析。
未來,DeSide有望進(jìn)一步幫助探究不同細(xì)胞之間關(guān)鍵的相互作用,從而為尋找潛在的臨床治療靶點(diǎn)提供新的可能。
該研究所開發(fā)的DeSide算法基于公開的單細(xì)胞數(shù)據(jù)集與深度學(xué)習(xí)方法,能夠較為準(zhǔn)確、高效地估算19種實(shí)體腫瘤bulk RNA-seq測(cè)序樣本中16種細(xì)胞類型的比例。這為深入理解腫瘤發(fā)生與發(fā)展機(jī)制、評(píng)估患者預(yù)后和制定精準(zhǔn)治療策略提供了有力的方法與數(shù)據(jù)支持。
李雪飛副研究員與田亮副教授是本文的共同通訊作者。香港浸會(huì)大學(xué)的四年級(jí)博士生熊昕與中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院研究助理劉燁蓉是本文的共同第一作者。熊昕于2020-2021年在李雪飛課題組擔(dān)任研究助理期間開啟了該課題的研究,隨后,經(jīng)由李雪飛推薦赴田亮課題組攻讀博士學(xué)位。兩個(gè)課題組通過緊密合作,聯(lián)合完成了該項(xiàng)研究。
該工作得到了國(guó)家重點(diǎn)研發(fā)計(jì)劃、中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)、國(guó)家自然科學(xué)基金青年與面上項(xiàng)目、廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金面上項(xiàng)目、香港研究資助局、香港中醫(yī)藥發(fā)展基金等多個(gè)項(xiàng)目的支持。
附件下載: