Briefings in Bioinformatics | 人工智能算法指導(dǎo)實(shí)驗(yàn)機(jī)器人進(jìn)行蛋白質(zhì)工程改造
本研究依托深圳合成生物研究重大科技基礎(chǔ)設(shè)施,開發(fā)了一種自動(dòng)化蛋白質(zhì)工程方法BO-EVO, 通過(guò)多輪機(jī)器學(xué)習(xí)與機(jī)器實(shí)驗(yàn)迭代,大幅提升了蛋白質(zhì)多位點(diǎn)組合突變?cè)O(shè)計(jì)空間的探索效率,能夠以<1%濕實(shí)驗(yàn)量尋找獲得全局最優(yōu)實(shí)驗(yàn)結(jié)果。除利用文獻(xiàn)數(shù)據(jù)、理論模型數(shù)據(jù)進(jìn)行驗(yàn)證外,BO-EVO方法被應(yīng)用于實(shí)際蛋白質(zhì)工程任務(wù),4周內(nèi)將鼠李糖脂合成酶RhlA的酶底物特異性提升了4.8倍。

文章上線截圖
文章鏈接:https://doi.org/10.1093/bib/bbac570
蛋白質(zhì)適應(yīng)度地形(fitness landscape)隱喻蛋白質(zhì)氨基酸序列與其目標(biāo)性質(zhì)(“適應(yīng)度”)對(duì)應(yīng)關(guān)系形成的高維表面。蛋白質(zhì)工程改造可視為在這個(gè)高維表面上尋找高點(diǎn)對(duì)應(yīng)的序列。然而有效探索該地形將面臨幾個(gè)挑戰(zhàn):1. 探索空間隨序列長(zhǎng)度指數(shù)增長(zhǎng);2. 有功能的蛋白極其稀少且高性能蛋白數(shù)量隨其適應(yīng)度呈指數(shù)衰減;3. 由于序列位點(diǎn)間突變存在上位效應(yīng),地形極度崎嶇;4. 實(shí)驗(yàn)表征費(fèi)時(shí)、費(fèi)力、費(fèi)錢。定向進(jìn)化采用多輪的隨機(jī)突變與高通量篩選對(duì)適應(yīng)度地形開展探索,通常每輪固定一個(gè)最佳突變。然而,由于適應(yīng)度地形通常較為崎嶇,貪婪策略更容易陷入局部最優(yōu)。
在該研究中,機(jī)器學(xué)習(xí)在建模蛋白質(zhì)適應(yīng)度地形及指導(dǎo)蛋白質(zhì)工程方面都取得了初步成功。然而,一方面受限于序列特征不充分及適應(yīng)度標(biāo)簽數(shù)據(jù)稀疏,機(jī)器學(xué)習(xí)模型性能有限;另一方面受限于人力實(shí)驗(yàn),現(xiàn)有機(jī)器學(xué)習(xí)指導(dǎo)的蛋白工程改造都追求盡可能小的實(shí)驗(yàn)通量和盡可能少的迭代輪次(甚至無(wú)迭代)。生物鑄造廠(Biofoundry)通過(guò)物理與信息的自動(dòng)化可以加速生物工程的“設(shè)計(jì)-構(gòu)建-測(cè)試-學(xué)習(xí)”閉環(huán)過(guò)程。在蛋白質(zhì)工程任務(wù)上,自動(dòng)化、高通量實(shí)驗(yàn)平臺(tái)使得短時(shí)間內(nèi)大批量建庫(kù)和篩選成為可能,從而能夠獲取高通量、高質(zhì)量的序列-功能關(guān)系數(shù)據(jù),用于機(jī)器學(xué)習(xí)模型性能及序列設(shè)計(jì)質(zhì)量的閉環(huán)迭代提升。
為了實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法與機(jī)器人實(shí)驗(yàn)之間的高效反饋,數(shù)據(jù)獲取、模型構(gòu)建及序列推薦三者缺一不可,需形成閉環(huán)。就算法而言,貝葉斯優(yōu)化正適用于這種復(fù)雜適應(yīng)度地形的尋優(yōu),其可利用預(yù)測(cè)模型的不確定性構(gòu)建采樣函數(shù)以平衡“探索與利用”。然而,經(jīng)典的貝葉斯優(yōu)化方法并不適用于高維問(wèn)題及批量采樣。本研究針對(duì)蛋白質(zhì)多位點(diǎn)組合突變?cè)O(shè)計(jì)空間的高維搜索難題,開發(fā)了貝葉斯優(yōu)化指導(dǎo)的進(jìn)化算法(BO-EVO,圖1)。作者在研究中提出了搜索空間演化策略,克服經(jīng)典貝葉斯優(yōu)化的可擴(kuò)展性問(wèn)題,采用迭代式批量化采樣策略,實(shí)現(xiàn)與高通量、自動(dòng)化實(shí)驗(yàn)平臺(tái)的高效適配。

圖1. BO-EVO原理圖。a. BO-EVO算法流程展示搜索空間演化; b. FAST-HIT軟件框架實(shí)現(xiàn)數(shù)據(jù)獲取、模型構(gòu)建與序列推薦的閉環(huán)迭代。
文章以四位點(diǎn)組合突變的GB1經(jīng)驗(yàn)地形數(shù)據(jù)開發(fā)算法,確定算法超參。在GB1地形上,BO-EVO性能超越隨機(jī)算法、純進(jìn)化算法(AdaLead)甚至MCMC算法(圖2);其性能雖不及全空間枚舉的貝葉斯優(yōu)化方法,但計(jì)算效率大大提高,可擴(kuò)展性極好。

圖2. 適應(yīng)度地形探索算法比較。a. 找到全局最優(yōu)的成功率;b. 算法所推薦的序列的適應(yīng)度均值及最大值。
為了考察對(duì)不同適應(yīng)度地形的適用性,作者將開發(fā)好的BO-EVO算法(超參不變)應(yīng)用在另外一個(gè)四位點(diǎn)組合突變的經(jīng)驗(yàn)地形PhoQ上,獲得了更高的成功率(圖3)。此外,作者進(jìn)一步挑戰(zhàn)BO-EVO,將其用在具有不同粗糙度的NK模擬地形(統(tǒng)計(jì)模型,粗糙度可控)上,發(fā)現(xiàn)對(duì)于中等及以下粗糙度的NK地形,BO-EVO表現(xiàn)優(yōu)秀,而對(duì)極其崎嶇的地形,BO-EVO的成功率明顯下降(圖3)。當(dāng)然,對(duì)于極其崎嶇的地形,其適應(yīng)度的可預(yù)測(cè)性本身極大降低。

圖3. BO-EVO在不同地形上的泛化能力。a. NK地形的粗糙度;b. BO-EVO迭代5輪后找到全局最優(yōu)的成功率。綠色圓圈代表NK地形,藍(lán)色三角形代表PhoQ地形,紫色五角星代表GB1地形。
最后,作者將BO-EVO算法成功應(yīng)用于真實(shí)的蛋白質(zhì)工程任務(wù)上。面向4位點(diǎn)組合突變的優(yōu)化任務(wù),作者以鼠李糖脂合成酶RhlA為研究對(duì)象,基于BO-EVO指導(dǎo)機(jī)器人平臺(tái)開展自動(dòng)化實(shí)驗(yàn),進(jìn)行共4輪、每輪384個(gè)突變體的分子克隆、誘導(dǎo)表達(dá)和質(zhì)譜測(cè)試。在不使用先驗(yàn)知識(shí)的前提下,BO-EVO通過(guò)模型-實(shí)驗(yàn)閉環(huán)迭代,在1個(gè)月內(nèi)實(shí)現(xiàn)底物選擇性指標(biāo)近5倍的提升,達(dá)到文獻(xiàn)已報(bào)道最高水平。
圖4. BO-EVO指導(dǎo)RhlA酶的4位點(diǎn)組合優(yōu)化。a. 鼠李糖脂單體Rha-C10-C10分子結(jié)構(gòu);b. 鼠李糖脂單體的MALDI質(zhì)譜檢測(cè)結(jié)果,包括野生型與典型變體;c. Rha-(C8-C10)的歸一化產(chǎn)量,野生型為1。
綜上,文章依托深圳合成生物大設(shè)施,開發(fā)了蛋白質(zhì)適應(yīng)度地形的高效探索算法,率先實(shí)現(xiàn)了基于機(jī)器學(xué)習(xí)模型與機(jī)器人實(shí)驗(yàn)反饋迭代的自動(dòng)化蛋白質(zhì)工程改造。司同研究員、喬宇研究員和胡如云助理研究員為本文的共同通訊作者,胡如云助理研究員和博士生付立豪為本文共同第一作者。本研究得到國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然基金及深圳合成生物學(xué)創(chuàng)新研究院等項(xiàng)目支持。
PI與課題組簡(jiǎn)介:
司同,中科院深圳先進(jìn)院合成生物學(xué)研究所研究員,博士生導(dǎo)師。國(guó)家重點(diǎn)研發(fā)計(jì)劃合成生物學(xué)項(xiàng)目首席科學(xué)家,國(guó)家高層次人才(青年),深圳合成生物研究重大科技基礎(chǔ)設(shè)施總工藝師。
課題組方向?yàn)樽詣?dòng)化合成生物技術(shù),包括機(jī)器學(xué)習(xí)指導(dǎo)蛋白工程、高通量質(zhì)譜篩選等,用于開發(fā)微生物細(xì)胞工廠研究和生產(chǎn)燃料、化工品、藥物等重要分子,前期成果在Nat Commun, J Am Chem Soc, Angew Chem Int Ed, Chem Sci, Metab Eng等國(guó)際著名學(xué)術(shù)期刊發(fā)表論文50余篇,“谷歌學(xué)術(shù)”引用超過(guò)2400次。
實(shí)驗(yàn)室主頁(yè):
http://isynbio.siat.ac.cn/sitonglab/
附件下載: