Nature Reviews Genetics|深圳先進院全面總結(jié)多模態(tài)譜系示蹤數(shù)據(jù)計算方法
譜系示蹤是解析生命發(fā)育、組織再生及疾病演化規(guī)律與機制的關(guān)鍵技術(shù)手段。近年來,DNA條形碼譜系示蹤技術(shù)快速發(fā)展并逐漸走向成熟。特別是其與單細胞組學和空間組學技術(shù)的深度融合,使研究者能夠在單細胞分辨率下同時獲取細胞譜系歷史與分子狀態(tài)信息,為系統(tǒng)揭示體細胞動態(tài)演化與命運決定規(guī)律提供了重要的方法學基礎(chǔ)。
5月18日,中國科學院深圳先進技術(shù)研究院定量合成生物學全國重點實驗室、合成生物學研究所胡政研究員與中山大學生命科學學院賀雄雷教授在Nature Reviews Genetics發(fā)表題為Computational approaches for multimodal lineage tracing的長篇綜述論文,系統(tǒng)總結(jié)了多模態(tài)譜系示蹤分析面臨的計算挑戰(zhàn)和最新方法進展,圍繞單細胞譜系重構(gòu)、細胞命運圖譜推斷和細胞命運基因程序分析三方面,闡述了計算方法如何將譜系信息與單細胞多組學信息整合,用于解析細胞命運決定的動態(tài)過程及其調(diào)控機制。
從單細胞“快照”到細胞命運“歷史記錄”
單細胞組學已經(jīng)能夠在高維分子空間中精細刻畫細胞類型和狀態(tài),但這類數(shù)據(jù)通常只能反映采樣時刻的分子特征,難以直接揭示不同細胞狀態(tài)之間的歷史關(guān)系和轉(zhuǎn)變路徑。譜系示蹤為這一問題提供了關(guān)鍵的時間信息:它記錄細胞之間的親緣關(guān)系和克隆結(jié)構(gòu),使研究者能夠判斷不同細胞群是否來源于相同祖先、分化分支在何時形成,以及某些命運偏向是否已在早期祖細胞中決定。單細胞組學刻畫細胞當前的分子狀態(tài),譜系示蹤則提供細胞之間的歷史親緣關(guān)系;二者結(jié)合后,研究者才能進一步分析不同細胞狀態(tài)之間如何相互關(guān)聯(lián),并追蹤這些狀態(tài)在發(fā)育或疾病演進過程中的來源與轉(zhuǎn)變(圖1)。
這種整合正在推動發(fā)育、再生和疾病研究從靜態(tài)狀態(tài)描述轉(zhuǎn)向動態(tài)過程解析。在胚胎發(fā)育中,它可用于追蹤祖細胞如何逐步產(chǎn)生不同組織和器官;在組織修復中,它有助于識別參與再生的關(guān)鍵細胞來源及其狀態(tài)轉(zhuǎn)換;在腫瘤和免疫研究中,它則可用于解析克隆擴增、耐藥演化和免疫細胞功能分化等過程。由此,多模態(tài)譜系示蹤為連接細胞親緣關(guān)系、分子狀態(tài)和命運轉(zhuǎn)變提供了重要框架。
多模態(tài)譜系示蹤數(shù)據(jù)的計算挑戰(zhàn)
該文章首先指出,多模態(tài)譜系示蹤的核心難點來自兩類信息的天然不匹配:譜系信息通常是離散、低維、樹狀的親緣關(guān)系,而分子測量則是連續(xù)、高維、帶噪聲的細胞狀態(tài)快照。如何把細胞譜系樹與高維轉(zhuǎn)錄組或多組學“流形”有機整合,是后續(xù)所有生物學解釋的基礎(chǔ)。
文章概括了四個主要挑戰(zhàn)。第一是大規(guī)模細胞譜系樹重建:目前單細胞譜系示蹤實驗可同時記錄成千上萬乃至更多細胞的譜系信息,但樹拓撲空間隨細胞數(shù)呈爆炸式增長,DNA條形碼突變熱點、數(shù)據(jù)缺失及測序錯誤會進一步干擾分析。第二是離散譜系樹與連續(xù)分子狀態(tài)的整合:譜系相近并不必然意味著表達狀態(tài)相似,同一細胞類型也可能由不同譜系分支獨立產(chǎn)生,因此簡單疊加兩類信息往往不足以解釋命運決定。第三是祖先狀態(tài)推斷:單細胞測序的“細胞破壞性”導致只能觀測末端細胞狀態(tài),而真正啟動命運偏轉(zhuǎn)的調(diào)控事件可能發(fā)生在早期祖先細胞中,通常未被采樣捕獲。第四是噪聲和數(shù)據(jù)缺失(dropout):無論是體細胞突變、CRISPR-Cas9 編輯條形碼還是轉(zhuǎn)錄組測序,都存在技術(shù)噪聲和稀疏性,若模型忽略這些不確定性,后續(xù)命運推斷和基因程序識別都可能被系統(tǒng)性偏差放大。
基于動態(tài)條形碼的細胞譜系重構(gòu)
譜系重構(gòu)是單細胞譜系示蹤的基礎(chǔ)。文章將譜系信息來源概括為兩大類:一類是細胞在體內(nèi)自然積累的譜系標記,包括體細胞突變、拷貝數(shù)變異、DNA 甲基化和線粒體突變等;另一類是人工引入的合成條形碼,尤其是 CRISPR編輯系統(tǒng)產(chǎn)生的動態(tài)條形碼。前者直接記錄細胞在真實組織環(huán)境中的歷史,因而特別適合用于人類組織發(fā)育和腫瘤演化等研究,但這類信號通常較為稀疏,且容易受到測序深度、等位基因數(shù)據(jù)缺失和拷貝數(shù)改變等因素影響。相比之下,CRISPR 動態(tài)條形碼具有更強的實驗可控性和更高的記錄密度,能夠在預先設(shè)計的靶位點上隨細胞分裂持續(xù)積累編輯事件,從而在實驗體系中高通量記錄細胞歷史。
圍繞這兩類數(shù)據(jù),領(lǐng)域內(nèi)已發(fā)展出多種譜系推斷方法。文章主要針對 CRISPR 條形碼的譜系重構(gòu)算法,總結(jié)了不同靶位點編輯速率不均一、熱點編輯導致的趨同突變、條形碼信號飽和、條形碼掉落以及編輯事件不可逆等噪音因素。除單獨利用譜系標記外,文章還討論了將轉(zhuǎn)錄組信息納入譜系重建的策略。這類方法嘗試在條形碼證據(jù)不足或分支關(guān)系存在歧義時,借助細胞狀態(tài)的連續(xù)變化提高譜系重構(gòu)準確性(圖2)。
細胞命運圖譜的定量推斷
在完成譜系關(guān)系構(gòu)建之后,進一步的問題是如何利用這些譜系關(guān)系理解細胞狀態(tài)的轉(zhuǎn)變過程。譜系樹或克隆條形碼不僅提供細胞之間的親緣關(guān)系,也為推斷命運偏向、狀態(tài)轉(zhuǎn)移方向和細胞可塑性提供了關(guān)鍵時間線索。圍繞這一目標,文章將相關(guān)方法概括為兩類:一類方法側(cè)重于建立細胞狀態(tài)變化的動力學模型,通過微分方程、隨機過程或速度場描述細胞群體如何在狀態(tài)空間中移動;另一類方法則從優(yōu)化角度出發(fā),利用最優(yōu)傳輸、圖優(yōu)化或多源相似性整合,估計不同細胞狀態(tài)之間的轉(zhuǎn)移關(guān)系和轉(zhuǎn)移強度。這些方法使研究者能夠從多時間點克隆追蹤或譜系解析的單細胞數(shù)據(jù)中識別早期命運偏向、狀態(tài)轉(zhuǎn)移路徑以及重復出現(xiàn)的分化模式。
此外,譜系信息還可用于推斷實驗中無法直接觀測的祖先細胞狀態(tài)。由于單細胞測序通常只能測量譜系樹末端細胞的分子狀態(tài),真正驅(qū)動命運分化的調(diào)控事件發(fā)生在更早的祖細胞階段。因此,祖先狀態(tài)推斷方法嘗試從末端細胞的基因表達譜和譜系關(guān)系反推祖先細胞的潛在分子狀態(tài),從而連接細胞歷史與命運決定。近年來,譜系-轉(zhuǎn)錄組聯(lián)合學習和深度學習模型也開始被用于這一領(lǐng)域,通過表征學習、對比學習或多任務學習整合譜系和表達信息,在命運預測、狀態(tài)嵌入和跨數(shù)據(jù)集遷移等任務中展現(xiàn)出潛力(圖3)。
譜系命運基因程序分析
譜系示蹤計算分析的一個重要目標,是從細胞歷史中識別驅(qū)動命運選擇的基因程序和調(diào)控網(wǎng)絡(luò)。不同于僅在單一時間點比較不同細胞類型的基因表達差異,譜系信息可以幫助研究者判斷某些表達模式是在早期祖細胞中已經(jīng)出現(xiàn),還是在后續(xù)分化過程中逐步形成;也可以區(qū)分某些基因程序是特定譜系分支所特有,還是在不同譜系中反復出現(xiàn)并共同指向相似的終末命運。對于發(fā)育、再生和疾病演進等過程而言,這類分析有助于把細胞狀態(tài)變化與其歷史來源聯(lián)系起來,從而更準確地識別潛在的命運決定因子。
圍繞這一目標,相關(guān)方法不再只是尋找差異表達基因,而是將基因表達模式放到譜系結(jié)構(gòu)中進行分析:有的方法關(guān)注譜系相近細胞之間是否共享相似的表達模塊,有的方法通過表征學習識別與譜系分支耦合的基因程序,還有的方法利用可視化或重復譜系基序分析,發(fā)現(xiàn)不同譜系中反復出現(xiàn)的調(diào)控模式。結(jié)合命運圖譜推斷方法,研究者還可以進一步篩選與特定終末命運、狀態(tài)轉(zhuǎn)移路徑或分化分支相關(guān)的候選調(diào)控因子。由此,多模態(tài)譜系示蹤不再停留于描述細胞如何分化,而是進一步追問哪些基因網(wǎng)絡(luò)參與并塑造了這一過程(圖4)。
未來展望
隨著該領(lǐng)域數(shù)據(jù)快速增加,如何系統(tǒng)評估算法并選擇適合的方法成為關(guān)鍵。文章指出,理想的基準體系需要結(jié)合模擬數(shù)據(jù)、真實實驗數(shù)據(jù)和正交驗證。模擬數(shù)據(jù)可以提供已知的譜系樹、狀態(tài)轉(zhuǎn)移和基因表達動態(tài),用于定量評估算法表現(xiàn);而具有明確發(fā)育過程的真實譜系解析單細胞數(shù)據(jù)集,如線蟲胚胎發(fā)育和小鼠胚胎發(fā)育數(shù)據(jù),則可為計算推斷提供具有生物學依據(jù)的驗證參照。此外,文章還根據(jù)譜系示蹤數(shù)據(jù)類型、分析目標和生物學假設(shè),總結(jié)了不同計算方法的適用場景,為研究者選擇合適的多模態(tài)譜系示蹤分析工具提供了指導(圖5)。
展望未來,文章指出多模態(tài)譜系示蹤計算方法的發(fā)展方向。首先,譜系示蹤將進一步與空間組學技術(shù)結(jié)合??臻g譜系示蹤能夠把克隆結(jié)構(gòu)及譜系關(guān)系直接映射到組織空間中,從而更好地分析組織結(jié)構(gòu)、細胞間互作和局部微環(huán)境如何影響細胞命運演化。其次,動態(tài)譜系圖譜需要與多尺度機制模型結(jié)合,將細胞狀態(tài)在時間和空間中的變化,與驅(qū)動命運決定的基因調(diào)控網(wǎng)絡(luò)和信號通路聯(lián)系起來,進而解釋從單細胞分化到組織形態(tài)發(fā)生和器官形成的連續(xù)過程。第三,譜系示蹤數(shù)據(jù)有望為“虛擬細胞”的AI訓練提供更接近因果關(guān)系的時間約束,幫助模型從單純學習高維相關(guān)性走向更具機制解釋力和泛化能力的細胞命運預測,從而構(gòu)建“動態(tài)虛擬細胞”。最后,面向人類臨床樣本的應用,需要更好地利用DNA 甲基化、線粒體變異以及體細胞嵌合變異等內(nèi)源性譜系標記,發(fā)展能夠處理更深譜系分辨率、更多組學模態(tài)和不同時間尺度記錄信號的計算框架。
綜上,該文章系統(tǒng)總結(jié)了單細胞譜系示蹤多模態(tài)數(shù)據(jù)計算分析的核心挑戰(zhàn)、方法原理和發(fā)展趨勢。隨著高質(zhì)量譜系示蹤數(shù)據(jù)、統(tǒng)計模型和人工智能方法的發(fā)展,譜系示蹤有望把發(fā)育、再生、腫瘤和疾病等研究統(tǒng)一到一個動態(tài)、定量、可預測的細胞演化理論框架中,推動研究者更深入地理解細胞在時間、空間和分子尺度上的演化規(guī)律與調(diào)控機制。
中國科學院深圳先進技術(shù)研究院為第一單位和最后通訊單位。中國科學院深圳先進技術(shù)研究院與廈門大學聯(lián)合培養(yǎng)博士生王琨為文章的第一作者,中國科學院深圳先進技術(shù)研究院定量合成生物學全國重點實驗室、合成生物學研究所胡政研究員與中山大學生命科學學院賀雄雷教授為共同通訊作者。該研究得到國家自然科學基金、國家重點研發(fā)計劃、中國科學院戰(zhàn)略性先導科技專項(B類)以及深圳合成生物學創(chuàng)新研究院等項目支持。

文章上線截圖

圖1|多模態(tài)單細胞譜系示蹤的方法學框架

圖2|基于CRISPR-Cas9條形碼的單細胞譜系重構(gòu)

圖3|基于多模態(tài)譜系示蹤的細胞命運圖譜推斷方法

圖4|譜系命運基因程序的計算分析

圖5|多模態(tài)譜系示蹤計算方法的選擇
附件下載: