在生命科學(xué)領(lǐng)域,生物學(xué)研究與機(jī)器學(xué)習(xí)的融合正成為推動(dòng)科學(xué)拓展的關(guān)鍵力量。面對(duì)海量的生物數(shù)據(jù),傳統(tǒng)方法往往顯得力不從心。而機(jī)器學(xué)習(xí)技術(shù),以其卓越的數(shù)據(jù)分析能力和模式識(shí)別優(yōu)勢(shì),極大地提高了數(shù)據(jù)處理的效率,為生物學(xué)研究帶來(lái)革命性的變化。本系列將分期介紹機(jī)器學(xué)習(xí)的定義、執(zhí)行流程、關(guān)鍵概念術(shù)語(yǔ)和各種學(xué)習(xí)模型,包括傳統(tǒng)模型與神經(jīng)網(wǎng)絡(luò)模型,幫助各位老師使用這種工具來(lái)挖掘生物學(xué)新發(fā)現(xiàn)。
01 什么是機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)和人類認(rèn)識(shí)事物的學(xué)習(xí)過(guò)程有相似之處。人類通過(guò)觀察周圍的世界并學(xué)會(huì)預(yù)測(cè)接下來(lái)可能發(fā)生的事情來(lái)理解這個(gè)世界。比如,一個(gè)孩子學(xué)習(xí)接球時(shí),通常不了解支配球運(yùn)動(dòng)的物理定律。但是,通過(guò)觀察和嘗試,孩子逐漸調(diào)整對(duì)球運(yùn)動(dòng)的理解和身體的動(dòng)作,最終能夠可靠地接住球。換句話說(shuō),孩子通過(guò)構(gòu)建一個(gè)足夠準(zhǔn)確的“模型”來(lái)學(xué)習(xí)接球,這個(gè)模型是通過(guò)對(duì)數(shù)據(jù)的反復(fù)測(cè)試和修正而建立的。
圖1.人類學(xué)習(xí)vs機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是一種通過(guò)擬合預(yù)測(cè)模型或識(shí)別數(shù)據(jù)中的模式來(lái)處理數(shù)據(jù)的技術(shù)。它試圖模仿人類認(rèn)識(shí)新事物的能力,但以一種客觀的方式,利用計(jì)算實(shí)現(xiàn)。當(dāng)數(shù)據(jù)集太大或太復(fù)雜,無(wú)法通過(guò)人工分析時(shí),或者當(dāng)需要自動(dòng)化數(shù)據(jù)分析過(guò)程以提高效率時(shí),機(jī)器學(xué)習(xí)特別有用。生物實(shí)驗(yàn)數(shù)據(jù)通常具有這些特點(diǎn),因此機(jī)器學(xué)習(xí)在生物學(xué)研究中變得越來(lái)越重要。
在生物學(xué)研究中使用機(jī)器學(xué)習(xí),一般有兩個(gè)主要目標(biāo):
1)準(zhǔn)確預(yù)測(cè):在缺乏實(shí)驗(yàn)數(shù)據(jù)時(shí),通過(guò)機(jī)器學(xué)習(xí)做出準(zhǔn)確預(yù)測(cè),指導(dǎo)未來(lái)的科研工作;
2)理解生物過(guò)程:利用機(jī)器學(xué)習(xí)深入理解生物現(xiàn)象。
02 機(jī)器學(xué)習(xí)的基本術(shù)語(yǔ)
我們首先介紹機(jī)器學(xué)習(xí)中的基本術(shù)語(yǔ),并通過(guò)生物學(xué)中的例子來(lái)說(shuō)明這些概念。
1.數(shù)據(jù)集
由多個(gè)數(shù)據(jù)點(diǎn)或?qū)嵗M成,每個(gè)數(shù)據(jù)點(diǎn)可以看作是一個(gè)實(shí)驗(yàn)的單次觀測(cè)。
2.特征
每個(gè)數(shù)據(jù)點(diǎn)由固定數(shù)量的特征描述,例如長(zhǎng)度、時(shí)間、濃度和基因表達(dá)水平。
3.機(jī)器學(xué)習(xí)任務(wù)
是對(duì)我們希望機(jī)器學(xué)習(xí)模型完成的目標(biāo)的明確定義。例如,在研究基因隨時(shí)間變化的實(shí)驗(yàn)中,我們希望預(yù)測(cè)特定代謝物轉(zhuǎn)化為另一種物質(zhì)的速率。在這種情況下,“基因表達(dá)水平”和“時(shí)間”可以稱為輸入特征,而“轉(zhuǎn)化率”則是模型的輸出,即我們感興趣的預(yù)測(cè)值。模型可以有任意數(shù)量的輸入和輸出特征。特征可以是連續(xù)的(連續(xù)數(shù)值)或分類的(離散值),分類特征通常是二元的,要么為真(1),要么為假(0)。
03 機(jī)器學(xué)習(xí)的基本流程
訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí)一般應(yīng)采取以下步驟。首先,在接觸任何機(jī)器學(xué)習(xí)模型和代碼之前,研究者應(yīng)該是完全理解手頭的數(shù)據(jù)(輸入)和預(yù)測(cè)任務(wù)(輸出)。這意味著研究者對(duì)研究問(wèn)題有深入的生物學(xué)理解,比如了解數(shù)據(jù)的來(lái)源和噪聲源,并對(duì)如何根據(jù)生物學(xué)原理從輸入理論上預(yù)測(cè)輸出有一個(gè)概念。舉例說(shuō)明,如果任務(wù)是推斷不同的氨基酸可能對(duì)特定的蛋白質(zhì)二級(jí)結(jié)構(gòu)有偏好,那么從蛋白質(zhì)序列中每個(gè)位置的氨基酸頻率來(lái)預(yù)測(cè)二級(jí)結(jié)構(gòu)是有道理的。此外,研究者還需要知道輸入和輸出是如何在計(jì)算機(jī)存儲(chǔ)的。它們是否被歸一化以防止某一特征對(duì)預(yù)測(cè)產(chǎn)生過(guò)大的影響?它們是被編碼為二進(jìn)制變量還是連續(xù)變量?是否存在重復(fù)條目?是否有缺失的數(shù)據(jù)元素?
接下來(lái),數(shù)據(jù)應(yīng)該被分割以允許訓(xùn)練、驗(yàn)證和測(cè)試。訓(xùn)練集用于直接更新正在訓(xùn)練的模型參數(shù)。驗(yàn)證集通常占可用數(shù)據(jù)的約10%,用于監(jiān)控訓(xùn)練、選擇超參數(shù)并防止模型過(guò)度擬合訓(xùn)練數(shù)據(jù)。驗(yàn)證時(shí)通常使用k倍交叉驗(yàn)證方法:訓(xùn)練集被分成k個(gè)大小相等的部分(例如,5或10個(gè)部分),形成k個(gè)不同的訓(xùn)練和驗(yàn)證集,然后在每個(gè)部分之間比較性能以選擇最佳超參數(shù)。測(cè)試集,有時(shí)稱為“保留集”,通常也占可用數(shù)據(jù)的約10%,用于評(píng)估模型在未用于訓(xùn)練或驗(yàn)證的數(shù)據(jù)上的表現(xiàn)(即估計(jì)其預(yù)期的實(shí)際表現(xiàn))。測(cè)試集應(yīng)在研究的最后階段或盡可能少地使用,以避免將模型調(diào)優(yōu)到適應(yīng)測(cè)試集。
下一步是模型選擇,這取決于數(shù)據(jù)的性質(zhì)和預(yù)測(cè)任務(wù)。研究者按照所用軟件框架的最佳實(shí)踐,使用訓(xùn)練集來(lái)訓(xùn)練模型。大多數(shù)方法都有幾個(gè)需要調(diào)優(yōu)的超參數(shù)以達(dá)到最佳性能。這可以通過(guò)隨機(jī)搜索或網(wǎng)格搜索完成,并可以與上述的k倍交叉驗(yàn)證結(jié)合使用。此外,研究者應(yīng)考慮模型集成,即將多個(gè)相似模型的輸出簡(jiǎn)單平均,以提供一種相對(duì)可靠的方式來(lái)提高建模任務(wù)的整體準(zhǔn)確性。最后,在測(cè)試集上評(píng)估模型的準(zhǔn)確性。
圖2.選擇并訓(xùn)練機(jī)器學(xué)習(xí)方法的總體流程
本文詳細(xì)介紹了什么是機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)的基本術(shù)語(yǔ)和基本流程。在后續(xù)的文章中,小編將詳細(xì)介紹機(jī)器學(xué)習(xí)領(lǐng)域的重要概念術(shù)語(yǔ)和各種模型算法,敬請(qǐng)期待。