ACS Synthetic Biology |蛋白質(zhì)15位點(diǎn)高階互作實(shí)驗(yàn)測(cè)量與AI預(yù)測(cè)
4月17日,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院司同課題組在國(guó)際學(xué)術(shù)期刊ACS Synthetic Biology發(fā)表研究論文“Deep Mutational Scanning of an Oxygen-Independent Fluorescent Protein CreiLOV for Comprehensive Profiling of Mutational and Epistatic Effects”。非氧依賴熒光蛋白CreiLOV是研究厭氧生物體系的重要工具。該研究團(tuán)隊(duì)依托深圳合成生物研究重大科技基礎(chǔ)設(shè)施,基于FACS-seq方法表征其序列-功能關(guān)系,構(gòu)建了包含15個(gè)位點(diǎn)20個(gè)突變的組合飽和突變文庫(kù)(理論庫(kù)容量18.4萬)。應(yīng)用機(jī)器學(xué)習(xí)模型,研究團(tuán)隊(duì)實(shí)現(xiàn)了基于少量低階(兩-兩,三-三)突變數(shù)據(jù)預(yù)測(cè)15個(gè)位點(diǎn)間的高階組合突變效應(yīng);在最優(yōu)情況下,僅需覆蓋理論設(shè)計(jì)空間0.25%的實(shí)驗(yàn)數(shù)據(jù),實(shí)現(xiàn)全部組合突變空間的可靠預(yù)測(cè)。本研究為機(jī)器學(xué)習(xí)輔助的蛋白質(zhì)工程實(shí)踐提供新穎工具、經(jīng)驗(yàn)數(shù)據(jù)和理論指導(dǎo)。課題組助理研究員陳永燦博士為本文的第一作者,司同研究員和張建志助理研究員為本文通訊作者。本文被收錄在期刊主編Huimin Zhao教授組織的AI for Synthetic Biology特別專刊 (Virtual Special Issue)。
文章上線截圖
傳統(tǒng)綠色熒光蛋白GFP發(fā)色團(tuán)的成熟過程依賴氧氣,無法應(yīng)用于腸道微生物、腫瘤內(nèi)部、無氧發(fā)酵等生物體系的研究。與GFP不同,黃素單核苷酸熒光蛋白(Flavin mononucleotide (FMN)-based fluorescent protein, FbFP)發(fā)色團(tuán)成熟不需要氧氣參與,在研究厭氧生物過程方面具有重大潛力。FbFP源于光敏蛋白的光-氧-電壓結(jié)構(gòu)域(light-oxygen-voltage domain, LOV domain)。天然LOV結(jié)構(gòu)域在受到藍(lán)光或紫外光激發(fā)時(shí),F(xiàn)MN與其結(jié)合口袋內(nèi)一個(gè)保守的半胱氨酸殘基形成共價(jià)加合物,伴隨著熒光消失和構(gòu)象變化;暗環(huán)境下共價(jià)加合物衰變,熒光恢復(fù)。當(dāng)該半胱氨酸突變?yōu)楸彼岷?,可將LOV結(jié)構(gòu)域改造為穩(wěn)定的FbFP,最大熒光發(fā)射波長(zhǎng)為495 nm。FbFP具有分子量低、單體性、發(fā)色團(tuán)成熟速度快、pH和熱穩(wěn)定性高等優(yōu)點(diǎn)。然而,F(xiàn)bFP熒光強(qiáng)度和量子產(chǎn)率與GFP相比偏低,需要進(jìn)行蛋白質(zhì)工程。之前針對(duì)FbFP的工程改造多采用易錯(cuò)PCR、定點(diǎn)突變等傳統(tǒng)定向進(jìn)化方法,序列空間探索程度有限。
深度突變掃描(deep mutational scanning, DMS)通過集成大規(guī)模突變文庫(kù)構(gòu)建、高通量篩選和NGS測(cè)序,可對(duì)蛋白突變體序列-功能關(guān)系進(jìn)行系統(tǒng)分析。目前,大量蛋白工程研究都利用單點(diǎn)飽和突變掃描文庫(kù)進(jìn)行深度突變掃描,大大提高了覆蓋的突變位點(diǎn)和類型。然而,優(yōu)良蛋白性能常需引入多個(gè)氨基酸突變。突變之間可能存在上位效應(yīng)(epistasis),即兩個(gè)或多個(gè)突變的效應(yīng)不同于各自效應(yīng)的總和。因此,即使已知所有單點(diǎn)突變效應(yīng),多點(diǎn)突變的理性設(shè)計(jì)也具有挑戰(zhàn)性。優(yōu)勢(shì)突變組合雖然可以通過多輪定向進(jìn)化積累,然而由于突變之間可能存在符號(hào)或雙向符號(hào)上位效應(yīng),該貪心策略可能陷入局部最優(yōu)。
在本研究中,作者以來源于萊茵衣藻的CreiLOV為研究對(duì)象,采用NNK簡(jiǎn)并密碼子構(gòu)建了118個(gè)位點(diǎn)的單位點(diǎn)飽和突變文庫(kù)(理論庫(kù)容2360)。為了獲得序列-熒光強(qiáng)度數(shù)據(jù),利用熒光激活細(xì)胞分選測(cè)序(FACS-seq)及表型估計(jì)方法快速表征,通過過濾的2185個(gè)突變序列占理論庫(kù)容的92%以上。作者還對(duì)多種表型估計(jì)方法進(jìn)行了比較,結(jié)果表明采用簡(jiǎn)單加權(quán)平均法各生物學(xué)重復(fù)相關(guān)性及估計(jì)與測(cè)量值相關(guān)性最高,其次為基于Gamma分布和正態(tài)分布的最大似然估計(jì)。根據(jù)序列-熒光強(qiáng)度數(shù)據(jù),作者鑒定了減弱或增強(qiáng)CreiLOV熒光強(qiáng)度的關(guān)鍵位點(diǎn)、區(qū)域和氨基酸突變(圖1)。
圖1 CreiLOV單點(diǎn)突變效應(yīng)分析
基于單點(diǎn)飽和突變掃描結(jié)果,作者進(jìn)一步構(gòu)建了覆蓋15個(gè)位點(diǎn)的20個(gè)氨基酸突變的飽和突變組合文庫(kù),理論庫(kù)容為18.4萬。利用更大規(guī)模的FACS-seq,作者對(duì)多點(diǎn)突變體序列-熒光強(qiáng)度關(guān)系進(jìn)行了解析,通過過濾的16.5萬條突變序列約占理論庫(kù)容的90%。作者發(fā)現(xiàn),整體熒光強(qiáng)度隨著突變位點(diǎn)數(shù)的增加而逐漸減弱。由于各突變均具有熒光增強(qiáng)或中性效應(yīng),表明存在廣泛的負(fù)上位效應(yīng)。對(duì)氨基酸突變之間特異性上位效應(yīng)(specific epistasis)的統(tǒng)計(jì)分析驗(yàn)證了這一推論(圖2)。
圖2 CreiLOV(a)組合突變體表型分布與(b)特異性上位效應(yīng)分析
近年來,科學(xué)家們發(fā)現(xiàn)對(duì)突變效應(yīng)的解釋還受到非特異性上位效應(yīng)(nonspecific epistasis,也稱為全局上位效應(yīng)(global epistasis))的影響。非特異性上位效應(yīng)是由于物理性質(zhì)與生物效應(yīng)之間存在非線性關(guān)系,是基因型-表型圖(genotype-phenotype map, G-P map)的普遍特征。忽略該非線性關(guān)系常造成特異性上位效應(yīng)的過度估計(jì)。MAVE-NN是最近開發(fā)的一種定量建模策略,整合了基因型-表型圖模型、全局上位效應(yīng)模型和噪聲模型,并利用來源于信息論的三種互信息指標(biāo)對(duì)模型性能進(jìn)行度量。作者利用MAVE-NN對(duì)組合飽和突變數(shù)據(jù)集進(jìn)行了定量建模,發(fā)現(xiàn)無論是基于基因型-表型圖的加性模型還是黑箱模型,CreiLOV潛在表型與測(cè)量結(jié)果之間均呈現(xiàn)S型關(guān)系??紤]到該非線性特征,模型預(yù)測(cè)值與實(shí)驗(yàn)測(cè)量值具有高度相關(guān)性(圖3)。
圖3 CreiLOV非特異性上位效應(yīng)建模與表型預(yù)測(cè):(a-c)基于G-P圖加性模型;(d-f)基于G-P圖黑箱模型
如前所述,為獲得更優(yōu)的表型常需要在氨基酸序列中引入多點(diǎn)組合突變,而組合爆炸(combinatorial explosion)問題將為理性設(shè)計(jì)和實(shí)驗(yàn)測(cè)試均帶來極大挑戰(zhàn)。為了探究能否利用低階突變體數(shù)據(jù)集預(yù)測(cè)高階突變組合效應(yīng),作者使用1/2/3/4/5階突變體數(shù)據(jù)對(duì)MAVE-NN機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,發(fā)現(xiàn)使用3階及以下突變體數(shù)據(jù)集預(yù)測(cè)6階以上突變效應(yīng)時(shí),模型預(yù)測(cè)與實(shí)驗(yàn)結(jié)果的Pearson相關(guān)系數(shù)可達(dá)0.84。值得注意的是,在僅使用1-3階突變體數(shù)據(jù)集中10%的子集時(shí),即可實(shí)現(xiàn)相對(duì)準(zhǔn)確的預(yù)測(cè)(Pearson相關(guān)系數(shù)0.79)(圖4)。進(jìn)一步,作者利用文獻(xiàn)報(bào)道的其他機(jī)器學(xué)習(xí)模型ECNet和其他組合突變數(shù)據(jù)集(CR9114和avGFP),探究了利用低階突變數(shù)據(jù)預(yù)測(cè)高階突變組合效應(yīng)的普適性和限制因素。
圖4 CreiLOV高階突變體表型預(yù)測(cè):(a)1/2/3/4/5及以下低階突變體數(shù)據(jù)集預(yù)測(cè)6階及以上突變體表型;(b)不同比例的3階及以下突變體數(shù)據(jù)預(yù)測(cè)6階及以上突變體表型
最后,作者還對(duì)單點(diǎn)和組合飽和突變文庫(kù)進(jìn)行多輪FACS篩選,獲得了多個(gè)單點(diǎn)和多點(diǎn)突變體,其體內(nèi)熒光強(qiáng)度和體外熒光量子產(chǎn)率顯著提高(最高熒光量子產(chǎn)率達(dá)0.57),在60℃下熱穩(wěn)定性亦得到提高(圖5),具有潛在應(yīng)用價(jià)值。
圖5 CreiLOV優(yōu)勢(shì)突變體表征:(a)熒光量子產(chǎn)率;(b)熱穩(wěn)定性
綜上,文章針對(duì)單位點(diǎn)和多位點(diǎn)組合飽和突變文庫(kù)開展深度突變掃描,描繪了CreiLOV氨基酸突變效應(yīng)和上位效應(yīng),篩選到得到性能顯著提升的CreiLOV突變體。此外,作者還展示了機(jī)器學(xué)習(xí)模型基于少量低階突變數(shù)據(jù)預(yù)測(cè)高階突變體表型的可行性,為機(jī)器學(xué)習(xí)輔助的蛋白質(zhì)工程優(yōu)化設(shè)計(jì)提供重要的參考和指導(dǎo)。
該成果得到國(guó)家重點(diǎn)研發(fā)計(jì)劃(2020YFA090023和2021YFA0910800)、國(guó)家自然科學(xué)基金(32071428)、廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金(2021A1515110722)及深圳合成生物學(xué)創(chuàng)新研究院的支持。作者特別致謝中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院戴磊研究員關(guān)于DMS數(shù)據(jù)分析的討論,以及清華大學(xué)張翀教授在FACS方面的幫助。
附件下載: