跟蹤智慧實驗室的理論研究發(fā)展狀況、產(chǎn)業(yè)發(fā)展動態(tài)、主要設備供應商產(chǎn)品研發(fā)動態(tài)、國內(nèi)外智慧實驗室建設成果現(xiàn)狀等信息內(nèi)容。本文由中科院上海生命科學信息中心與曼森生物合作供稿。
本期“前沿技術”欄目,編譯了 Partha Pratim Mondal 等發(fā)表在 Bioresource Technology 期刊上的綜述論文《基于機器學習的生
物過程優(yōu)化、監(jiān)測和控制系統(tǒng)綜述》(Review on machine learning-based bioprocess optimization, monitoring, and control systems),作者首先深入介紹了機器學習領域的基本理解,并討論了其復雜性,以獲得更全面的應用。隨后概述了機器學習模型對控制生物過程操作所生成的龐大數(shù)據(jù)集的統(tǒng)計和邏輯分析的相關性。然后,批判性地討論了生物過程行業(yè)不同子領域的當前知識、局限性和未來方面。此外,還討論了采用混合方法將不同的建模策略、網(wǎng)絡和集成傳感器相結合以開發(fā)新的
數(shù)字生物技術的前景。
目錄/CONTENT
01/前言
02/機器學習的基本概念
2.1 機器學習模型設計
2.2.生物過程開發(fā)中的機器學習
2.3.選擇正確的機器學習方法的過程
03/機器學習算法
04/ML 在生物加工工業(yè)中的應用
4.1 生物燃料行業(yè)
4.2.生物制藥行業(yè)
4.3.生物廢水處理
05/研究需求和未來展望
06/結論
1.前言
在生物過程行業(yè)中觀察到了這方面的重大發(fā)展,新的生物產(chǎn)品和生物工藝的產(chǎn)量成倍增加。這些發(fā)展主要與生物加工子領域相關,如生物制藥/生物治療生產(chǎn)、生物燃料生產(chǎn)和生物廢水處理工藝,這些領域的需求從未如此之大。為了確保這些生物產(chǎn)品開發(fā)過程的商業(yè)經(jīng)濟性和可持續(xù)性, 必須在整個生產(chǎn)生命周期中同步規(guī)劃和執(zhí)行。生物技術行業(yè)正在經(jīng)歷數(shù)字化轉型, 以克服這些限制,采用人工智能(AI)和機器學習(ML)等創(chuàng)新技術是相關生產(chǎn)過程自動化的首要任務;谌斯ぶ悄艿 ML 技術開發(fā)、監(jiān)控、控制和優(yōu)化過程系統(tǒng)。它們能夠有效地學習工藝參數(shù)和性能之間的復雜關系。ML 可以預測和影響關鍵工藝參數(shù)(CPP)和產(chǎn)品關鍵質(zhì)量屬性(CQA),控制工藝系統(tǒng)以應對參數(shù)偏差,并理解制造過程中的完整數(shù)據(jù)分析。
2.機器學習的基本概念
2.1 機器學習模型設計
在 21 世紀末,在開發(fā)計算機輔助系統(tǒng)設計、體系結構、計算機視覺和信號處理方面取得了許多進步。ML 被認為是一個研究領域,它允許計算機在最初編程后學習、自學、分析數(shù)據(jù)和估計,而不需要在每個階段都進行明確的編程。ML 在生物過程行業(yè)中已經(jīng)建立了重要的應用,其影響力展示了領域理解和創(chuàng)新,繞過了人工工作和預測。圖 1a 展示了 ML 在生物過程系統(tǒng)中的使用、相關挑戰(zhàn)、 優(yōu)勢和模型設計的圖形視圖。圖 1b 描繪了用于生物廢水的機器學習算法的典型圖形工作流程。用于上采樣、下采樣、模型輸入訓練、驗證、測試和機器學習類別(監(jiān)督、半監(jiān)督和非監(jiān)督)的特征點代表了典型的 ML 模型工作流。ML 的領域及其與各種 ML 模型設計和數(shù)學方程的關系的綜合視圖見補充表。
因此,為了在自動化設計中處理來自參數(shù)數(shù)據(jù)和圖像的未處理原始文件的挑戰(zhàn)性方面,需要結合起來。深度學習(DL)方法用于此類任務,從而為微流體輔助和高通量生物工藝開發(fā)奠定了基礎。DL 領域從未處理的輸入中確定多層次、分層的特征。在同一條線上,深度神經(jīng)網(wǎng)絡(DNN)由一系列包含激活函數(shù)的層組成。使用 I/P-O/P(輸入-輸出)域將多個映射到一個,表示所需的輸出類別,稱為訓練數(shù)據(jù)。處理測試數(shù)據(jù)集(看不見的數(shù)據(jù))有助于建立和開發(fā)相關性模式。ML 與評估中給定數(shù)據(jù)的統(tǒng)計和經(jīng)驗模型相互關聯(lián)。模型設計的第一部分,即輸入層,確定了原位過程參數(shù)、外部生態(tài)系統(tǒng)條件和作為 ML 設計和神經(jīng)網(wǎng)絡模型輸入的幾個觸發(fā)神經(jīng)元(圖 1c)。
2.2.生物過程開發(fā)中的機器學習
2.3.選擇正確的機器學習方法的過程
根據(jù)任務的性質(zhì),ML 規(guī)則是明確的,需要一個選擇過程。第一步是選擇 ML 學習的類型,即強化學習、有監(jiān)督、半監(jiān)督和無監(jiān)督的學習方法(見補充材料)。在監(jiān)督學習中,向算法提供一組“明確的正確答案”或因變量或 y 變量,以拓寬描述自變量和因變量之間關系的特征。變量之間的關系適合進行預測。監(jiān)督方法為算法提供了最有說服力的統(tǒng)計數(shù)據(jù),用于確定數(shù)據(jù)的一般形式和特征,這是一種實驗策略。為了指示一組規(guī)則實現(xiàn) y 變量目標,ML 包括一個“功績授予功能”, 該功能選擇最大化總體響應的路徑。決定 w-v 比至關重要,其中 w 是輸入的寬范圍,v 是變量的多樣性。更高的 w-v 比率是有益的。03 機器學習算法
04ML 在生物加工工業(yè)中的應用
ML 算法的使用越來越有規(guī)律,以加深對生物過程的理解。該領域的收縮性研究需要將生物化學工程和計算機科學聯(lián)系起來。
4.1 生物燃料行業(yè)
為了在生物燃料行業(yè)取得重大進展,已經(jīng)進行了廣泛的研究。ML 建模被有意用于研究生物燃料生產(chǎn)中操作參數(shù)之間的非線性關系。這一特定研究領域的大量綜述已經(jīng)發(fā)表在公開文獻中。主要集中在 ML 模型在優(yōu)化、控制和監(jiān)測生物柴油生產(chǎn)(生物氫、生物乙醇、沼氣等)方面的適應性、靈活性和最新應用。
4.2.生物制藥行業(yè)
近年來,原子模擬已成為大型工業(yè)中生物制藥過程開發(fā)、優(yōu)化、控制和設計的寶貴工具。ML 技術的制定包括對藥物的可行的普遍需求,以及向具有自動化監(jiān)管的工業(yè) 5.0 的轉變。ML 技術已經(jīng)在解決生物制藥制造的多個方面找到了基礎。這些研究領域包括生物標志物識別、藥物發(fā)現(xiàn)、蛋白質(zhì)工程、藥物再利用、 臨床試驗質(zhì)量跟蹤、實時錯誤處理和過程自動化。廢水處理對社區(qū)發(fā)展至關重要。目前,生物處理工藝是最有效、最可行的工藝。然而,由于生物系統(tǒng)的分支和不確定的時間間隔,生物廢水處理在行業(yè)中具有挑戰(zhàn)性。數(shù)學建模技術不僅給出了過程動力學的明確描述,而且提前為后續(xù)動作提供了提示。因此,必須設計一種有效而明確的廢水處理算法,該算法可以預測瞬態(tài)操作條件,如管道泄漏引起的突然故障、生物反應器的操作故障、進料負載的突然變化和不正確的物理參數(shù)(即流速、pH 和溫度),以做出現(xiàn)場智能決策。
05研究需求和未來展望
盡管在生物過程行業(yè)中實現(xiàn) ML 已經(jīng)進行了大量的研究和應用,但它仍處于早期開發(fā)和使用階段。ML 在企業(yè)連續(xù)體中的成功應用在很大程度上取決于適當?shù)拇鎯蛿?shù)據(jù)管理。此外,以下幾點針對生物過程行業(yè)中實施 ML 的研究需求和需求:
(1)由于真實的現(xiàn)場數(shù)據(jù)集的可用性鮮為人知,生物過程中來自軟離線傳感器的反饋增加了不相關和瑣碎信息的成本和交付支出。
(2)利用現(xiàn)場傳感器和算法開發(fā)基于網(wǎng)絡的在線物理系統(tǒng),以控制集成的生物并將其與歷史數(shù)據(jù)聯(lián)系起來。這些成為這種生物過程工業(yè)的原始來源投入。即使是生物過程建模系統(tǒng)也不能提供可信的結果。最近的調(diào)查表明,運行模擬和統(tǒng)計技術可以優(yōu)化運營成本,提高運營效率。
(3)基于神經(jīng)網(wǎng)絡的設計的出現(xiàn)和過程驅動技術的發(fā)展,從順序過程到分層再到混合,都在不斷發(fā)展。最近,基于模型的控制器被要求通過 ML 進行端到端神經(jīng)網(wǎng)絡生物過程建模。
(4)單元操作的根本原因分析、分子相互作用和模型細化可以根據(jù)傳感器反饋進行多種輸入。這得益于基于混合模型和先進的深度學習架構,如卷積神經(jīng)網(wǎng)絡-遞歸神經(jīng)網(wǎng)絡和深度 CNN。這樣的模型在優(yōu)化和性能指標方面優(yōu)于競爭對手。
(5)在設計控制技術水平時,必須實現(xiàn)精度、準確性和魯棒性。生物治療開發(fā)人員可以從大規(guī)模生產(chǎn)的角度進行思考,并從流程開發(fā)的早期階段就融入自動化概念。
(6)軟件、硬件和設計規(guī)范之間的標準化不足使自動化嘗試變得復雜。
(7)利益相關者和技術解決方案提供商應縮小生物制造領域的創(chuàng)新差距。生物治療開發(fā)人員的職責是設計和開發(fā)新藥,并建立一個鏈接,提供可以與 ML 集成的自動化解決方案。
(1)需要對生物傳感器進行深入研究,包括微流體傳感器和微型傳感器。高通量表型平臺應使用物聯(lián)網(wǎng)和生物燃料和生物制藥行業(yè)的混合建模進行連接。
(2)通過 ML 架構設計提供的自動化無線軟傳感器網(wǎng)絡的使用,能夠部署和開發(fā)分散的智能產(chǎn)品質(zhì)量監(jiān)控系統(tǒng)。
(3)市場上需要一種低成本的無線傳感器節(jié)點解決方案來經(jīng)濟地實現(xiàn)這一 新一代系統(tǒng);谖锫(lián)網(wǎng)的模塊化設計(圖 2)表明,該系統(tǒng)具有在線和實時管理廢水質(zhì)量參數(shù)的功能。
(5)物聯(lián)網(wǎng)集成系統(tǒng)具有先進的功能,可在智能城市的配水系統(tǒng)中部署大規(guī)模傳感器,使用戶能夠近實時地識別污染發(fā)生和負面趨勢(圖 3 )。
(6)商業(yè)或公共機構監(jiān)測和管理水質(zhì)的責任將能夠更快、更有效地應對問 題,減少有害影響,減少已發(fā)現(xiàn)的問題(即污染點和目標源); ML 的操作控制的未來使用旨在幫助研究人員和技術人員了解和分析 生物過程屬性、操作周期中的實時參數(shù)估計、診斷偏差和分析遇到的錯誤。
文章來源:Mondal PP, Galodha A, Verma VK, et al. Review on machine learning-based bioprocess optimization, monitoring, and control systems. Bioresour Technol. 2023;370:128523. doi:10.1016/j.biortech.2022.128523