分享一些我們舉辦完第一期微信公開課——臨床代謝組學(xué)研究策略后,所收集到的常見問題,供大家學(xué)習(xí)和參考。
Q:如何設(shè)置驗(yàn)證集和測(cè)試集?
A:按我理解你想問的問題是:training set訓(xùn)練集和test set測(cè)試集的設(shè)置問題。我們做分析化學(xué)、生物化學(xué)或者分子生物學(xué)的初學(xué)者通常會(huì)混淆這幾個(gè)數(shù)據(jù)集概念,通常是我們中文翻譯產(chǎn)生的歧義。
機(jī)器學(xué)習(xí)中,數(shù)據(jù)通常分為三類:Training Set訓(xùn)練集,Validation Set驗(yàn)證集,和Test Set測(cè)試集。B.D. Ripley在他的‘Pattern Recognition and Neural Networks’ Cambridge University Press, 1996, ISBN 0-521-46086-7 書中做了如下定義和分類。
訓(xùn)練集Training Set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier. 訓(xùn)練模型或模型參數(shù)調(diào)試
驗(yàn)證集Validation Set: A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network. 模型或參數(shù)的優(yōu)化及確定
測(cè)試集Test Set: A set of examples used only to assess the performance [generalization] of a fully specified classifier. 純粹測(cè)試已建立模型的預(yù)測(cè)能力
那么比較理想的分類的百分比是,我建議大人群的隊(duì)列研究(樣本量比較大,如 >100以上)
|
推薦1 |
推薦2 |
訓(xùn)練集Training Set |
≥50 |
60 |
驗(yàn)證集Validation Set |
25 |
20 |
測(cè)試集Test Set |
25 |
20 |
現(xiàn)實(shí)情況一般受樣本量大小限制,從而演變成這樣
數(shù)據(jù)集 |
推薦1 |
推薦2 |
推薦3 |
訓(xùn)練集+驗(yàn)證集Training Set+ Validation Set |
60 |
70 |
80 |
測(cè)試集Test Set |
40 |
30 |
20 |
而代謝組學(xué)研究中,樣本量極少的實(shí)驗(yàn),如細(xì)胞實(shí)驗(yàn)、動(dòng)物實(shí)驗(yàn)的代謝組學(xué)數(shù)據(jù),也會(huì)看到不嚴(yán)謹(jǐn)的做法(往往也被接受)是:
數(shù)據(jù)集 |
|
|
訓(xùn)練集+驗(yàn)證集Training Set+ Validation Set |
All |
LOOCV: Leave One Out CV K-fold CV (SIMCA:1/7-fold CV) Bootstrap |
測(cè)試集Test Set |
N/A |
Q:細(xì)胞樣品如何收集?使用不含EDTA的胰酶還是用刮刀收集?二者哪個(gè)更好?
A:細(xì)胞樣本我們發(fā)現(xiàn)貼壁的細(xì)胞用刮刀的方式檢測(cè)的代謝物種類比較多,但是重復(fù)性取決于細(xì)胞的種類和實(shí)驗(yàn)人員本身的技術(shù)水平。所以我們實(shí)驗(yàn)室在大規(guī)模收集細(xì)胞樣本的時(shí)候通常采用消化的方法。
Q:檢測(cè)的樣本是血漿嗎?血漿中小分子大分子物質(zhì)都很多,小分子的檢測(cè)會(huì)受到大分子的干擾嗎?
A:您好,代謝組學(xué)可以用血漿、血清、DBS等等。在檢測(cè)之前,我們必須采用高比例的有機(jī)溶劑進(jìn)行蛋白沉淀和代謝物的提取。大分子的小肽和蛋白會(huì)發(fā)生化學(xué)變性,離心沉淀或采用過濾的方式去除蛋白,從而避免大分子物質(zhì)對(duì)內(nèi)源性小分子代謝物產(chǎn)生干擾。蛋白沉淀及代謝物提取方法需經(jīng)過方法學(xué)優(yōu)化及考察,否則也會(huì)大大影響小分子物質(zhì)的提取效率。
Q:請(qǐng)問麥特繪譜對(duì)呼出氣代謝組學(xué)研究有涉及嗎?
A:有的。這項(xiàng)研究在慢性阻塞性肺疾病COPD的研究中比較成熟,我們?cè)诜伟⑽赴┑燃膊⊙芯恐幸呀?jīng)做過了一些探索。
Q:組合的判斷能介紹一下嗎?
A:差異代謝物組合的判斷是需要技巧的,并不是說(shuō)數(shù)學(xué)上統(tǒng)計(jì)出來(lái)p<0.05的top的組合就可以了,不懂生物學(xué)和醫(yī)學(xué)的專門研究模型的一直在這么做。組合的優(yōu)化一定是統(tǒng)計(jì)模型+代謝通道兩者兼顧再優(yōu)化的結(jié)果,是“代謝組學(xué)驅(qū)動(dòng)下的分子生物學(xué)機(jī)制研究”。
Q:標(biāo)準(zhǔn)血清在基于液質(zhì)的代謝組學(xué)研究中也一樣適用嗎?
A:NIST SRM1950是美國(guó)標(biāo)準(zhǔn)品物質(zhì)研究所提供的,我們用這份標(biāo)本實(shí)現(xiàn)了在不同國(guó)家、不同實(shí)驗(yàn)室、不同儀器設(shè)備、不同時(shí)間采集的數(shù)據(jù)矯正,保證我們兩國(guó)(中美)四地(上海、杭州、北卡、夏威夷)產(chǎn)生的數(shù)據(jù)的整合。我們定量代謝組學(xué)的平臺(tái)用這份樣本作為獨(dú)立外部質(zhì)控。所以,不管是氣質(zhì)還是液質(zhì)平臺(tái),這份標(biāo)本都適用,并且是未來(lái)實(shí)現(xiàn)全球代謝組學(xué)數(shù)據(jù)統(tǒng)一的唯一機(jī)會(huì)。
想了解更多臨床代謝組學(xué)的知識(shí)嗎?
麥特繪譜 臨床代謝組學(xué)全國(guó)巡講技術(shù)交流會(huì) 免費(fèi)申請(qǐng)啦!
還等什么 快來(lái)報(bào)名吧!