Plant Phenomics | 分布式賬本能幫助克服農(nóng)業(yè)機(jī)器學(xué)習(xí)對(duì)標(biāo)記數(shù)據(jù)的需求嗎?
植物表型描述了基因型與環(huán)境相互作用的結(jié)果。高通量成像流程導(dǎo)致大量數(shù)據(jù),這需要復(fù)雜的處理程序。表型相關(guān)數(shù)據(jù)的共享和重用并不常見(jiàn),因?yàn)槠浍@取和處理需要耗費(fèi)大量資源和技術(shù)。在MIAPPE(Minimum Information About a Plant Phenotyping Experiment)方法之后,存在數(shù)據(jù)采集的一般標(biāo)準(zhǔn),甚至與表型相關(guān)的特定標(biāo)準(zhǔn)。此外,最近,資金組織已經(jīng)將FAIR(可查找性、可訪問(wèn)性、互操作性和可重用性)原則集成到數(shù)據(jù)管理中,并使其成為強(qiáng)制性的。
現(xiàn)如今,獲取數(shù)據(jù)總是伴隨著機(jī)器學(xué)習(xí)(ML),而監(jiān)督學(xué)習(xí)尤其依賴于充分預(yù)處理的數(shù)據(jù),如數(shù)據(jù)標(biāo)記。特別是隨著深度學(xué)習(xí)程序的建立,對(duì)大量高質(zhì)量、有標(biāo)記的數(shù)據(jù)的需求增加,從而導(dǎo)致植物表型模型訓(xùn)練的瓶頸。與底層數(shù)據(jù)集類似,標(biāo)準(zhǔn)化、可用性和質(zhì)量要求也對(duì)訓(xùn)練模型提出了挑戰(zhàn)。開放數(shù)據(jù)集展示了它們的可用性,例如,在計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)挑戰(zhàn)中,如葉片分割和計(jì)數(shù)。然而,更復(fù)雜的情景,如疾病和產(chǎn)量預(yù)測(cè)模型,需要詳細(xì)的土壤、土地特征和天氣信息。ML模型的質(zhì)量隨著數(shù)據(jù)集的異質(zhì)性而提高。對(duì)于數(shù)據(jù)共享和重用的有價(jià)值和稀缺信息問(wèn)題,一個(gè)直觀的方法是數(shù)據(jù)市場(chǎng)。專注于數(shù)據(jù)和處理的協(xié)作方法允許共享生成的異構(gòu)和普遍適用的ML模型,從而解決了所描述的需求。
2023年7月,Plant Phenomics在線發(fā)表了Institute for Software and Systems Engineering, TU Clausthal等單位題為Can Distributed Ledgers Help to Overcome the Need of Labeled Data for Agricultural Machine Learning Tasks ?的前沿觀點(diǎn)文章。
作者主張采用一種協(xié)作的方法來(lái)獲取和處理表型相關(guān)數(shù)據(jù)集,以及訓(xùn)練隨后的人工智能(AI)模型。本文描述了最先進(jìn)的數(shù)據(jù)處理和共享方法的局限性,以開發(fā)用于植物表型和精準(zhǔn)農(nóng)業(yè)的人工智能驅(qū)動(dòng)應(yīng)用程序。本文描述了一種方法,通過(guò)引入基于分布式賬本的數(shù)據(jù)跟蹤,使科學(xué)家和植物表型實(shí)體能夠改善科學(xué)數(shù)據(jù)的可用性,該數(shù)據(jù)跟蹤集成到更廣泛的生態(tài)系統(tǒng)中,為其利益相關(guān)者提供不同的激勵(lì)。它描述了一種可能的解決方案,通過(guò)將編輯過(guò)的數(shù)據(jù)集與來(lái)自不同參與者的元數(shù)據(jù)連接起來(lái),克服數(shù)據(jù)存儲(chǔ)和共享的各種孤島解決方案。它有助于克服當(dāng)前機(jī)器學(xué)習(xí)模型的瓶頸,通過(guò)使用大量標(biāo)記的訓(xùn)練數(shù)據(jù)可以極大地提高其準(zhǔn)確性。因此,定義了數(shù)據(jù)收集器、建模器和模型最終用戶的角色。以農(nóng)業(yè)疾病預(yù)測(cè)系統(tǒng)為例,來(lái)自無(wú)人機(jī)飛行或衛(wèi)星圖像的現(xiàn)場(chǎng)數(shù)據(jù)被用來(lái)訓(xùn)練一個(gè)模型來(lái)預(yù)測(cè)田間作物疾病的嚴(yán)重程度/發(fā)病率,說(shuō)明了基于分布式賬本方法的工作流程。數(shù)據(jù)收集器使用標(biāo)準(zhǔn)、元信息和數(shù)據(jù)協(xié)調(diào)來(lái)準(zhǔn)備數(shù)據(jù)集,并將它們發(fā)送到數(shù)據(jù)存儲(chǔ)。每當(dāng)完全或部分使用ML模型時(shí),數(shù)據(jù)收集器就會(huì)得到模型用戶的獎(jiǎng)勵(lì)。模型用戶向付費(fèi)的農(nóng)民提供信息。農(nóng)民也可以通過(guò)提供參考數(shù)據(jù),如疾病參考數(shù)據(jù) (位置、發(fā)病率和嚴(yán)重程度),成為數(shù)據(jù)收集者。此外,他們提供關(guān)于模型的準(zhǔn)確性/質(zhì)量的反饋。
圖1 一個(gè)市場(chǎng)生態(tài)系統(tǒng)的例子。用戶的參與包括數(shù)據(jù)提供者、應(yīng)用程序/圖形用戶界面用戶、數(shù)據(jù)管理員和AI/ML培訓(xùn)師。市場(chǎng)支持買/賣選項(xiàng)和訂閱者/提供者選項(xiàng)?捎玫腁I/ML模型涵蓋了訓(xùn)練數(shù)據(jù)的不同子集。
圖2 現(xiàn)代農(nóng)業(yè)中數(shù)據(jù)市場(chǎng)生態(tài)系統(tǒng)的一個(gè)用例。數(shù)據(jù)可以用于訓(xùn)練機(jī)器學(xué)習(xí)模型,這些模型由模型用戶提供給農(nóng)民。該示例通過(guò)基于遙感現(xiàn)場(chǎng)數(shù)據(jù)的疾病預(yù)測(cè)用例進(jìn)行可視化。
論文鏈接:
https://doi.org/10.34133/plantphenomics.0070
——推薦閱讀——
Classification of Rice Yield Using UAV-Based Hyperspectral Imagery and Lodging Feature
https://doi.org/10.34133/2021/9765952
Plant Phenomics | 結(jié)合無(wú)人機(jī)高光譜圖像和倒伏特征構(gòu)建水稻產(chǎn)量類別檢測(cè)模型
Using Machine Learning to Develop a Fully Automated Soybean Nodule Acquisition Pipeline (SNAP)
https://doi.org/10.34133/2021/9834746
Plant Phenomics | SNAP:基于機(jī)器學(xué)習(xí)的全自動(dòng)大豆根瘤提取算法
加入作者交流群
掃碼添加小編微信,拉您進(jìn)入《植物表型組學(xué)》作者交流群,群內(nèi)不定期開展作者分享會(huì)、?l(fā)布會(huì)等高質(zhì)量活動(dòng)。
添加小編微信,備注姓名+單位+PP,加入作者交流群
About Plant Phenomics
《植物表型組學(xué)》(Plant Phenomics)是由南京農(nóng)業(yè)大學(xué)和美國(guó)科學(xué)促進(jìn)會(huì)(AAAS)合作創(chuàng)辦的英文學(xué)術(shù)期刊,于2019年1月正式上線發(fā)行。采用開放獲取形式,刊載植物表型組學(xué)交叉學(xué)科熱點(diǎn)領(lǐng)域具有突破性科研進(jìn)展的原創(chuàng)性研究論文、綜述、數(shù)據(jù)集和觀點(diǎn)。具體范圍涵蓋高通量表型分析的最新技術(shù),基于圖像分析和機(jī)器學(xué)習(xí)的表型分析研究,提取表型信息的新算法,作物栽培、植物育種和農(nóng)業(yè)實(shí)踐中的表型組學(xué)新應(yīng)用,與植物表型相結(jié)合的分子生物學(xué)、植物生理學(xué)、統(tǒng)計(jì)學(xué)、作物模型和其他組學(xué)研究,表型組學(xué)相關(guān)的植物生物學(xué)等。期刊已被DOAJ、Scopus、PMC、EI和SCIE等數(shù)據(jù)庫(kù)收錄?祁Nò睯CR2021影響因子為6.5,位于農(nóng)藝學(xué)、植物科學(xué)、遙感一區(qū)。中科院農(nóng)藝學(xué)、植物科學(xué)一區(qū),遙感二區(qū),生物大類一區(qū)(TOP期刊)。2020年入選中國(guó)科技期刊卓越行動(dòng)計(jì)劃高起點(diǎn)新刊項(xiàng)目。
說(shuō)明:本文由《植物表型組學(xué)》編輯部負(fù)責(zé)組稿。
中文內(nèi)容僅供參考,一切內(nèi)容以英文原版為準(zhǔn)。
排版:趙慶澤(南京農(nóng)業(yè)大學(xué))
審核:孔敏、王平