Genome Biology | 處理復(fù)雜基因組模式,“人機(jī)交互”有新思路
在哺乳動(dòng)物細(xì)胞核中,染色體通過復(fù)雜的折疊形成三維基因組結(jié)構(gòu),而拓?fù)湎嚓P(guān)結(jié)構(gòu)域(TADs)是其關(guān)鍵特征之一,這些結(jié)構(gòu)在細(xì)胞發(fā)育與疾病發(fā)生中發(fā)揮著重要作用。然而,盡管已有多種檢測方法,但由于背景噪聲及TAD結(jié)構(gòu)的復(fù)雜嵌套關(guān)系,如何精準(zhǔn)檢測TAD仍然是一個(gè)亟待解決的挑戰(zhàn)。
12月2日,中國科學(xué)院深圳先進(jìn)技術(shù)研究院資治科研究員團(tuán)隊(duì)聯(lián)合華中農(nóng)業(yè)大學(xué)李立教授團(tuán)隊(duì),在Genome Biology雜志上在線發(fā)表了題為“HTAD: a human-in-the-loop framework for supervised chromatin domain detection”的研究成果。研究人員開發(fā)了一種基于“人機(jī)交互”框架的TAD識(shí)別方法,命名為HTAD。該方法提出了“人機(jī)交互”(HITL)的創(chuàng)新思路,通過結(jié)合主動(dòng)學(xué)習(xí)和人工的判斷力,顯著提升了機(jī)器學(xué)習(xí)模型的性能。

文章上線截圖
研究團(tuán)隊(duì)深入分析了現(xiàn)有的TAD檢測技術(shù),發(fā)現(xiàn)這些計(jì)算方法在局部結(jié)構(gòu)識(shí)別上常常存在一致性與可靠性不足的問題。HTAD通過引入人工標(biāo)注,增強(qiáng)了數(shù)據(jù)挖掘效果,實(shí)現(xiàn)了精確的TAD特征提取與高效的模型訓(xùn)練。HTAD不僅在檢測效果上優(yōu)于現(xiàn)有方法,還成功揭示了復(fù)雜TAD結(jié)構(gòu),為復(fù)雜基因組模式的處理提供了一種全新的“人機(jī)交互”解決方案。

HTAD:人機(jī)交互識(shí)別TAD結(jié)構(gòu)域的工作流程
團(tuán)隊(duì)首先基于數(shù)據(jù),建立了一個(gè)包含大量潛在TAD樣本的數(shù)據(jù)庫,通過簡化方向性指數(shù)(sDI)對(duì)Hi-C矩陣進(jìn)行初步篩選。隨后,采用主動(dòng)學(xué)習(xí)(Active Learning)策略對(duì)篩選樣本進(jìn)行有效標(biāo)注,成功訓(xùn)練出具有高敏感度和高精度的TAD識(shí)別模型。
實(shí)驗(yàn)結(jié)果表明,HTAD在TAD邊界定位和復(fù)雜結(jié)構(gòu)識(shí)別方面表現(xiàn)出色,尤其在多個(gè)數(shù)據(jù)集上展現(xiàn)了強(qiáng)大的穩(wěn)定性與適應(yīng)性??傊?,HTAD的推出為三維基因組結(jié)構(gòu)的研究提供了新工具,提升了分析的準(zhǔn)確性和可靠性,未來有望在復(fù)雜基因組模式解析中發(fā)揮重要作用,推動(dòng)相關(guān)研究的進(jìn)展。
資治科課題組成員沈威為論文的第一作者,資治科研究員和李立教授為該論文的通訊作者。該研究得到了國家自然科學(xué)基金、華中農(nóng)業(yè)大學(xué)自主科技創(chuàng)新基金、廣東省合成基因組重點(diǎn)實(shí)驗(yàn)室和深圳市合成基因組重點(diǎn)實(shí)驗(yàn)室的資助。
資治科課題組
主要研究方向包括細(xì)胞信號(hào)網(wǎng)絡(luò)的調(diào)控原理與合成控制、細(xì)胞系統(tǒng)的數(shù)學(xué)建模和機(jī)器學(xué)習(xí)模型預(yù)測。目前,團(tuán)隊(duì)長期招聘計(jì)算生物學(xué)、生物信息學(xué)、細(xì)胞生物學(xué)和分子生物學(xué)等方向的博士后和研究助理。有意申請(qǐng)者請(qǐng)將個(gè)人簡歷發(fā)送至 zk.zi@siat.ac.cn。
附件下載: