ACS Synthetic Biology |蛋白質(zhì)15位點高階互作實驗測量與AI預(yù)測
4月17日,中國科學(xué)院深圳先進(jìn)技術(shù)研究院司同課題組在國際學(xué)術(shù)期刊ACS Synthetic Biology發(fā)表研究論文“Deep Mutational Scanning of an Oxygen-Independent Fluorescent Protein CreiLOV for Comprehensive Profiling of Mutational and Epistatic Effects”。非氧依賴熒光蛋白CreiLOV是研究厭氧生物體系的重要工具。該研究團隊依托深圳合成生物研究重大科技基礎(chǔ)設(shè)施,基于FACS-seq方法表征其序列-功能關(guān)系,構(gòu)建了包含15個位點20個突變的組合飽和突變文庫(理論庫容量18.4萬)。應(yīng)用機器學(xué)習(xí)模型,研究團隊實現(xiàn)了基于少量低階(兩-兩,三-三)突變數(shù)據(jù)預(yù)測15個位點間的高階組合突變效應(yīng);在最優(yōu)情況下,僅需覆蓋理論設(shè)計空間0.25%的實驗數(shù)據(jù),實現(xiàn)全部組合突變空間的可靠預(yù)測。本研究為機器學(xué)習(xí)輔助的蛋白質(zhì)工程實踐提供新穎工具、經(jīng)驗數(shù)據(jù)和理論指導(dǎo)。課題組助理研究員陳永燦博士為本文的第一作者,司同研究員和張建志助理研究員為本文通訊作者。本文被收錄在期刊主編Huimin Zhao教授組織的AI for Synthetic Biology特別???(Virtual Special Issue)。
文章上線截圖
傳統(tǒng)綠色熒光蛋白GFP發(fā)色團的成熟過程依賴氧氣,無法應(yīng)用于腸道微生物、腫瘤內(nèi)部、無氧發(fā)酵等生物體系的研究。與GFP不同,黃素單核苷酸熒光蛋白(Flavin mononucleotide (FMN)-based fluorescent protein, FbFP)發(fā)色團成熟不需要氧氣參與,在研究厭氧生物過程方面具有重大潛力。FbFP源于光敏蛋白的光-氧-電壓結(jié)構(gòu)域(light-oxygen-voltage domain, LOV domain)。天然LOV結(jié)構(gòu)域在受到藍(lán)光或紫外光激發(fā)時,F(xiàn)MN與其結(jié)合口袋內(nèi)一個保守的半胱氨酸殘基形成共價加合物,伴隨著熒光消失和構(gòu)象變化;暗環(huán)境下共價加合物衰變,熒光恢復(fù)。當(dāng)該半胱氨酸突變?yōu)楸彼岷?,可將LOV結(jié)構(gòu)域改造為穩(wěn)定的FbFP,最大熒光發(fā)射波長為495 nm。FbFP具有分子量低、單體性、發(fā)色團成熟速度快、pH和熱穩(wěn)定性高等優(yōu)點。然而,F(xiàn)bFP熒光強度和量子產(chǎn)率與GFP相比偏低,需要進(jìn)行蛋白質(zhì)工程。之前針對FbFP的工程改造多采用易錯PCR、定點突變等傳統(tǒng)定向進(jìn)化方法,序列空間探索程度有限。
深度突變掃描(deep mutational scanning, DMS)通過集成大規(guī)模突變文庫構(gòu)建、高通量篩選和NGS測序,可對蛋白突變體序列-功能關(guān)系進(jìn)行系統(tǒng)分析。目前,大量蛋白工程研究都利用單點飽和突變掃描文庫進(jìn)行深度突變掃描,大大提高了覆蓋的突變位點和類型。然而,優(yōu)良蛋白性能常需引入多個氨基酸突變。突變之間可能存在上位效應(yīng)(epistasis),即兩個或多個突變的效應(yīng)不同于各自效應(yīng)的總和。因此,即使已知所有單點突變效應(yīng),多點突變的理性設(shè)計也具有挑戰(zhàn)性。優(yōu)勢突變組合雖然可以通過多輪定向進(jìn)化積累,然而由于突變之間可能存在符號或雙向符號上位效應(yīng),該貪心策略可能陷入局部最優(yōu)。
在本研究中,作者以來源于萊茵衣藻的CreiLOV為研究對象,采用NNK簡并密碼子構(gòu)建了118個位點的單位點飽和突變文庫(理論庫容2360)。為了獲得序列-熒光強度數(shù)據(jù),利用熒光激活細(xì)胞分選測序(FACS-seq)及表型估計方法快速表征,通過過濾的2185個突變序列占理論庫容的92%以上。作者還對多種表型估計方法進(jìn)行了比較,結(jié)果表明采用簡單加權(quán)平均法各生物學(xué)重復(fù)相關(guān)性及估計與測量值相關(guān)性最高,其次為基于Gamma分布和正態(tài)分布的最大似然估計。根據(jù)序列-熒光強度數(shù)據(jù),作者鑒定了減弱或增強CreiLOV熒光強度的關(guān)鍵位點、區(qū)域和氨基酸突變(圖1)。
圖1 CreiLOV單點突變效應(yīng)分析
基于單點飽和突變掃描結(jié)果,作者進(jìn)一步構(gòu)建了覆蓋15個位點的20個氨基酸突變的飽和突變組合文庫,理論庫容為18.4萬。利用更大規(guī)模的FACS-seq,作者對多點突變體序列-熒光強度關(guān)系進(jìn)行了解析,通過過濾的16.5萬條突變序列約占理論庫容的90%。作者發(fā)現(xiàn),整體熒光強度隨著突變位點數(shù)的增加而逐漸減弱。由于各突變均具有熒光增強或中性效應(yīng),表明存在廣泛的負(fù)上位效應(yīng)。對氨基酸突變之間特異性上位效應(yīng)(specific epistasis)的統(tǒng)計分析驗證了這一推論(圖2)。
圖2 CreiLOV(a)組合突變體表型分布與(b)特異性上位效應(yīng)分析
近年來,科學(xué)家們發(fā)現(xiàn)對突變效應(yīng)的解釋還受到非特異性上位效應(yīng)(nonspecific epistasis,也稱為全局上位效應(yīng)(global epistasis))的影響。非特異性上位效應(yīng)是由于物理性質(zhì)與生物效應(yīng)之間存在非線性關(guān)系,是基因型-表型圖(genotype-phenotype map, G-P map)的普遍特征。忽略該非線性關(guān)系常造成特異性上位效應(yīng)的過度估計。MAVE-NN是最近開發(fā)的一種定量建模策略,整合了基因型-表型圖模型、全局上位效應(yīng)模型和噪聲模型,并利用來源于信息論的三種互信息指標(biāo)對模型性能進(jìn)行度量。作者利用MAVE-NN對組合飽和突變數(shù)據(jù)集進(jìn)行了定量建模,發(fā)現(xiàn)無論是基于基因型-表型圖的加性模型還是黑箱模型,CreiLOV潛在表型與測量結(jié)果之間均呈現(xiàn)S型關(guān)系。考慮到該非線性特征,模型預(yù)測值與實驗測量值具有高度相關(guān)性(圖3)。
圖3 CreiLOV非特異性上位效應(yīng)建模與表型預(yù)測:(a-c)基于G-P圖加性模型;(d-f)基于G-P圖黑箱模型
如前所述,為獲得更優(yōu)的表型常需要在氨基酸序列中引入多點組合突變,而組合爆炸(combinatorial explosion)問題將為理性設(shè)計和實驗測試均帶來極大挑戰(zhàn)。為了探究能否利用低階突變體數(shù)據(jù)集預(yù)測高階突變組合效應(yīng),作者使用1/2/3/4/5階突變體數(shù)據(jù)對MAVE-NN機器學(xué)習(xí)模型進(jìn)行訓(xùn)練,發(fā)現(xiàn)使用3階及以下突變體數(shù)據(jù)集預(yù)測6階以上突變效應(yīng)時,模型預(yù)測與實驗結(jié)果的Pearson相關(guān)系數(shù)可達(dá)0.84。值得注意的是,在僅使用1-3階突變體數(shù)據(jù)集中10%的子集時,即可實現(xiàn)相對準(zhǔn)確的預(yù)測(Pearson相關(guān)系數(shù)0.79)(圖4)。進(jìn)一步,作者利用文獻(xiàn)報道的其他機器學(xué)習(xí)模型ECNet和其他組合突變數(shù)據(jù)集(CR9114和avGFP),探究了利用低階突變數(shù)據(jù)預(yù)測高階突變組合效應(yīng)的普適性和限制因素。
圖4 CreiLOV高階突變體表型預(yù)測:(a)1/2/3/4/5及以下低階突變體數(shù)據(jù)集預(yù)測6階及以上突變體表型;(b)不同比例的3階及以下突變體數(shù)據(jù)預(yù)測6階及以上突變體表型
最后,作者還對單點和組合飽和突變文庫進(jìn)行多輪FACS篩選,獲得了多個單點和多點突變體,其體內(nèi)熒光強度和體外熒光量子產(chǎn)率顯著提高(最高熒光量子產(chǎn)率達(dá)0.57),在60℃下熱穩(wěn)定性亦得到提高(圖5),具有潛在應(yīng)用價值。
圖5 CreiLOV優(yōu)勢突變體表征:(a)熒光量子產(chǎn)率;(b)熱穩(wěn)定性
綜上,文章針對單位點和多位點組合飽和突變文庫開展深度突變掃描,描繪了CreiLOV氨基酸突變效應(yīng)和上位效應(yīng),篩選到得到性能顯著提升的CreiLOV突變體。此外,作者還展示了機器學(xué)習(xí)模型基于少量低階突變數(shù)據(jù)預(yù)測高階突變體表型的可行性,為機器學(xué)習(xí)輔助的蛋白質(zhì)工程優(yōu)化設(shè)計提供重要的參考和指導(dǎo)。
該成果得到國家重點研發(fā)計劃(2020YFA090023和2021YFA0910800)、國家自然科學(xué)基金(32071428)、廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金(2021A1515110722)及深圳合成生物學(xué)創(chuàng)新研究院的支持。作者特別致謝中國科學(xué)院深圳先進(jìn)技術(shù)研究院戴磊研究員關(guān)于DMS數(shù)據(jù)分析的討論,以及清華大學(xué)張翀教授在FACS方面的幫助。
附件下載: