編者按
跟蹤智慧實(shí)驗(yàn)室的理論研究發(fā)展?fàn)顩r、產(chǎn)業(yè)發(fā)展動(dòng)態(tài)、主要設(shè)備供應(yīng)商產(chǎn)品研發(fā)動(dòng)態(tài)、國(guó)內(nèi)外智慧實(shí)驗(yàn)室建設(shè)成果現(xiàn)狀等信息內(nèi)容。本文由中科院上海生命科學(xué)信息中心與曼森生物合作供稿。
本期推文編譯了 Laura M. Helleckes 等發(fā)表在 Trends in Biotechnology 期刊上的綜述論文《生物過程開發(fā)中的機(jī)器學(xué)習(xí):從承諾到實(shí)踐》(Machine learning in bioprocess development: from promise to practice),在此,作者展示了迄今為止 ML 方法是如何應(yīng)用于生物工藝開發(fā)的,特別是在菌株工程和選擇、生物工藝優(yōu)化、放大、監(jiān)測(cè)和控制生物工藝方面。對(duì)于每一個(gè)主題,作者重點(diǎn)介紹成功的應(yīng)用案例、當(dāng)前的挑戰(zhàn),并指出可能從技術(shù)轉(zhuǎn)讓和 ML領(lǐng)域的進(jìn)一步進(jìn)展中受益的領(lǐng)域。
目錄
01
在眾多候選菌株中進(jìn)行選擇:菌株工程和選擇
02
提高和穩(wěn)定 TRY:生物工藝優(yōu)化
03
商業(yè)規(guī)模即將面臨的挑戰(zhàn):生物工藝的擴(kuò)大
04
監(jiān)測(cè)和控制生物過程:PAT 中的 ML
名詞釋義
1.ML:Machine learning 機(jī)器學(xué)習(xí)
2.HTS:high-throughput screening 高通量篩選
3.DBTL:design-build-test-learn 設(shè)計(jì)-建造-測(cè)試-學(xué)習(xí)
4.COBRA:constraint-based modeling 基于約束的建模
5.FBA:Flux balance analysis 通量平衡分析
6.MOMA:minimization of metabolic adjustment 代謝調(diào)節(jié)最小化
7.MCS:minimal cut sets 最小割集
8.TRY:titers, rates, yields 生產(chǎn)滴度、速率和產(chǎn)量
9.SVM:support vector machine 支持向量機(jī)
10.GP:Gaussian processes 高斯過程
11.ANN:Artificial neural network 人工神經(jīng)網(wǎng)絡(luò)
就實(shí)際應(yīng)用而言,機(jī)器學(xué)習(xí)(ML)已經(jīng)成為人工智能(AI)中最重要的學(xué)科。ML 處理的是學(xué)習(xí)基于數(shù)據(jù)解決某些任務(wù)的算法和程序,其中性能隨著經(jīng)驗(yàn) (即可用數(shù)據(jù))的增加而增加。更準(zhǔn)確地說,ML 旨在找到合適的、主要是經(jīng)驗(yàn)?zāi)P蛠砻枋鰯?shù)據(jù)集,從標(biāo)記的樣本中學(xué)習(xí)或通過識(shí)別固有模式。當(dāng)有大量數(shù)據(jù)可用時(shí)和/或當(dāng)數(shù)據(jù)集過于復(fù)雜而無法通過預(yù)定義規(guī)則集進(jìn)行分析時(shí),大量的 ML 方法尤其有用。ML 的其他應(yīng)用旨在尋找所謂的代理模型,其中 ML 模型被用作成本高昂或難以評(píng)估的機(jī)械模型的近似值。
近年來,生命科學(xué)已經(jīng)開始研究可用的 ML 方法,研究人員開始評(píng)估其中哪些方法適合應(yīng)對(duì)當(dāng)前的挑戰(zhàn)。因此,生物學(xué)和生物技術(shù)受到 ML 最新進(jìn)展的影響。這反映在許多綜述中,例如,ML 在蛋白質(zhì)功能預(yù)測(cè)、多組學(xué)數(shù)據(jù)分析、發(fā)育生物學(xué)、生物網(wǎng)絡(luò)分析、代謝工程和生物化學(xué)工程方面。
通常,從目標(biāo)分子到最終產(chǎn)品的生物技術(shù)管道包括四個(gè)基本階段:(1)目標(biāo)鑒定和分子設(shè)計(jì),(2)生物催化劑設(shè)計(jì),(3)生物過程開發(fā),(4)工業(yè)規(guī) 模生產(chǎn)。
其中,生物技術(shù)生產(chǎn)管道的第三階段,即生物工藝開發(fā),重點(diǎn)是通過菌株選擇、工藝優(yōu)化和擴(kuò)大規(guī)模來提高目標(biāo)分子的生產(chǎn)能力。在此階段,通常進(jìn)行高通量篩選 (HTS)實(shí)驗(yàn)來評(píng)估選定克隆的性能。此外,還需要從巨大的設(shè)計(jì)空間中確定最佳培養(yǎng)參數(shù)。然而,傳統(tǒng)的分析方法,如質(zhì)譜法,往往與實(shí)驗(yàn)速度不匹配,因此,分析隨后成為瓶頸。
然而這一瓶頸可以通過使用 ML 根據(jù)樣本的預(yù)測(cè)信息內(nèi)容對(duì)樣本進(jìn)行排序并相應(yīng)地安排其分析來解決,同時(shí)(高通量)平臺(tái)已經(jīng)可以執(zhí)行進(jìn)一步的實(shí)驗(yàn)。由于生物學(xué)和工藝參數(shù)是相關(guān)的,因此需要迭代實(shí)驗(yàn)和數(shù)據(jù)評(píng)估來反饋從篩選到菌株設(shè)計(jì)的信息和見解。這種方法反映在設(shè)計(jì)-建造-測(cè)試-學(xué)習(xí)(DBTL)周期中,該周期有時(shí)僅指合成生物學(xué),但也可應(yīng)用于生物過程開發(fā)階段。在 DBTL 的背景下,所有步驟都可以通過 ML 進(jìn)行增強(qiáng),特別是為下一輪實(shí)驗(yàn)提供信息設(shè)計(jì)。
本文將從以下四個(gè)主要議題展開論述:
(1)菌株選擇和工程
(2)生物工藝優(yōu)化
(3)擴(kuò)大生物工藝
(4)過程監(jiān)控
01 PART
在眾多候選菌株中進(jìn)行選擇:菌株工程和選擇
生物工藝開發(fā)之前的一個(gè)核心步驟是選擇用于生產(chǎn)的生物催化劑或微生物。HTS 的現(xiàn)有實(shí)驗(yàn)方法可以鑒定有效的生物催化劑(例如,通過菌株庫的定量表型)。因此,當(dāng)前的瓶頸是自動(dòng)數(shù)據(jù)處理和算法驅(qū)動(dòng)的決策,以選擇具有最高商業(yè)生產(chǎn)潛力的生物催化劑。
ML 的最新進(jìn)展提供了許多技術(shù)來促進(jìn)菌株的生物化學(xué)工程。作為一個(gè)主要挑戰(zhàn),生物催化劑的多樣性導(dǎo)致了一系列可能的任務(wù),例如,設(shè)計(jì)和選擇細(xì)菌生產(chǎn)菌株,預(yù)測(cè)不同無細(xì)胞系統(tǒng)中的生產(chǎn),或工程哺乳動(dòng)物細(xì)胞系。后者帶來了許多額外的挑戰(zhàn),如克隆變異,需要進(jìn)行大規(guī)模研究來產(chǎn)生機(jī)制理解,這是迄今為止非 ML 方法所需要的。
在過去的幾十年里,化學(xué)計(jì)量和動(dòng)力學(xué)基因組規(guī)模的模型已被用于代謝工程和生物過程開發(fā)。除了基因設(shè)計(jì),這些模型還可以深入了解合適的碳源、培養(yǎng)基設(shè)計(jì)或生物反應(yīng)器參數(shù)。多年來,已經(jīng)使用基因組規(guī)模代謝網(wǎng)絡(luò)的基于約束的建模(COBRA)對(duì)代謝工程進(jìn)行了定量預(yù)測(cè)。COBRA 工具箱的方法,如通量平衡分析(FBA)、代謝調(diào)節(jié)最小化(MOMA)或最小割集(MCS),通常旨在優(yōu)化生物網(wǎng)絡(luò)(即代謝)中的通量,以通過例如減少副產(chǎn)物形成或消除競(jìng)爭(zhēng)代謝途徑來提高生產(chǎn)力。解析代謝途徑并確定相應(yīng)的通量是實(shí)驗(yàn)上的要求。因此,F(xiàn)BA 在很大程度上受到對(duì)底層網(wǎng)絡(luò)結(jié)構(gòu)的理解的限制。在 COBRA 工具箱中,F(xiàn)BA 可能是找到穩(wěn)態(tài)通量解的最流行方法。相反,數(shù)據(jù)驅(qū)動(dòng)的 ML 算法允許分析大型、復(fù)雜(多)組學(xué)數(shù)據(jù)集,這些數(shù)據(jù)集可以以高吞吐量生成。ML 在基因組規(guī)模模型中的不同應(yīng)用正在出現(xiàn)。一方面,ML 用于補(bǔ)充基于約束的模型的典型建模管道,即在基因注釋、間隙填充和多組學(xué)數(shù)據(jù)整合的步驟中。另一方面,已經(jīng)提出了新的混合建模方法,以及完全取代機(jī)制基因組規(guī)模模型的 ML 方法。
02 PART
提高和穩(wěn)定 TRY:生物工藝優(yōu)化
在生物工藝開發(fā)和優(yōu)化過程中,實(shí)驗(yàn)室規(guī)模的生物工藝通過確定培養(yǎng)的最佳物理化學(xué)參數(shù)來提高 TRY。在這種情況下,使用了不同的 ML 技術(shù)。
針對(duì)微生物和酶在極端溫度下的應(yīng)用,Li 等人開發(fā)了一個(gè)支持向量機(jī)(SVM)回歸模型,以最佳生長(zhǎng)溫度和氨基酸序列信息為輸入特征, 預(yù)測(cè)酶活性的最佳溫度。用于生物過程優(yōu)化的另一種常見的 ML 方法是 GP 回歸。使用案例包括優(yōu)化藻類中的色素生產(chǎn)和調(diào)節(jié)谷氨酸棒桿菌中蛋白質(zhì)生產(chǎn)的培養(yǎng)基組成。
最后,人工神經(jīng)網(wǎng)絡(luò)(Ann)經(jīng)常應(yīng)用于一系列應(yīng)用(例如,優(yōu)化小麥胚芽的培養(yǎng)基組成或藍(lán)藻中的色素生產(chǎn))。其他研究?jī)?yōu)化發(fā)酵參數(shù);例如, Pappu 等人研究了溫度、發(fā)酵時(shí)間、pH、kLa、生物量和甘油作為影響尼泊爾無核酵母中木糖醇生產(chǎn)的參數(shù)。Ebrahimpour 等人以生長(zhǎng)溫度、培養(yǎng)基體積、接種 物大小、攪拌速率、潛伏期和初始 pH 值為輸入變量,優(yōu)化了地桿菌菌株中熱穩(wěn)定脂肪酶的生產(chǎn)。最后,一些研究探討了培養(yǎng)基組成和發(fā)酵參數(shù)的復(fù)雜相互作用 (例如,在用釀酒酵母生產(chǎn)生物乙醇或用于治療的細(xì)胞系生長(zhǎng)中)。
針對(duì)不同生物過程之間的知識(shí)轉(zhuǎn)移,Rogers 等人通過轉(zhuǎn)移學(xué)習(xí)模擬了不同生物體在生物化學(xué)過程中的動(dòng)態(tài)行為,在這種情況下,通過部分保留不同 Ann 之間的層。Hutter 及其同事將 GP 回歸與遷移學(xué)習(xí)相結(jié)合,更準(zhǔn)確地說是嵌入向量,這是一種在自然語言處理中用于量化單詞之間相似性的技術(shù)。這兩種方法都顯示了如何使用歷史數(shù)據(jù)來預(yù)測(cè)新產(chǎn)品的動(dòng)力學(xué),這有利于生物工藝優(yōu)化。
視頻和圖像數(shù)據(jù)(例如,細(xì)胞形態(tài))是生物過程分析和控制的豐富信息來源。在這里,微流體系統(tǒng)與生命細(xì)胞成像相結(jié)合,開創(chuàng)了菌株 HTS 的圖像分析方法, 并提高了對(duì)生物過程相關(guān)培養(yǎng)條件下細(xì)胞行為的理解。深度學(xué)習(xí)技術(shù)非常適合以自動(dòng)化方式處理來自圖像的如此復(fù)雜的原始數(shù)據(jù),從而為微流體輔助的高通量生物過程開發(fā)奠定基礎(chǔ)。最近的例子包括微流體單細(xì)胞培養(yǎng)和微流體液滴反應(yīng)器中的生長(zhǎng)和動(dòng)力學(xué)預(yù)測(cè),其中多層 Ann 用于預(yù)測(cè)流聚焦液滴發(fā)生器的性能。
工藝優(yōu)化中的其他應(yīng)用包括使用微觀圖像數(shù)據(jù)對(duì)生物膜進(jìn)行時(shí)空分析和藻類培養(yǎng)。后者需要對(duì)光照條件和生長(zhǎng)模式進(jìn)行復(fù)雜的管理(例如,在培養(yǎng)過程中避免相互遮蔭)。在這里,Long 等人使用 SVM 回歸來預(yù)測(cè)顯微鏡圖像中的光分布模式,這提供了對(duì)生長(zhǎng)行為的深入了解,并可能最終有助于開發(fā)新的培養(yǎng)設(shè)計(jì)。
最后,看到了 ML 在化工自動(dòng)化流程圖合成中的進(jìn)展,例如,分層強(qiáng)化學(xué)習(xí)和圖神經(jīng)網(wǎng)絡(luò)已被成功應(yīng)用。盡管尚未在生物工藝中得到證明,但這些技術(shù)在加速生物工藝發(fā)展方面具有巨大潛力。
未完待續(xù)
文章來源:https://www.sciencedirect.com/science/article/pii/S0167779922002815
由于篇幅受限,關(guān)于上述文章原文獻(xiàn)詳見公眾號(hào)右下角底部菜單欄→補(bǔ)充資料,自動(dòng)跳轉(zhuǎn)獲取。