小麥?zhǔn)侨蚍N植最廣泛的作物,其產(chǎn)量與全球糧食安全密切相關(guān)。麥穗數(shù)量在小麥育種和產(chǎn)量估算中具有重要意義。因此,自動化的麥穗計數(shù)技術(shù)對于培育高產(chǎn)品種和提高糧食產(chǎn)量至關(guān)重要。然而,現(xiàn)有的所有方法都需要位置級標(biāo)注進行訓(xùn)練,這意味著需要大量人力進行標(biāo)注,從而限制了深度學(xué)習(xí)技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用與發(fā)展。
2024年8月, Plant Phenomics 在線發(fā)表了貴州大學(xué)公共大數(shù)據(jù)國家重點實驗室SAMLab實驗室王崎老師團隊題為CSNet: A Count-Supervised Network via Multiscale MLP-Mixer for Wheat Ear Counting 的研究論文,代碼已開源,歡迎大家follow我們的工作,相關(guān)鏈接附在文章尾部。
圖1 不同監(jiān)督方式的麥穗計數(shù)方法對比
為了解決這一問題,我們提出了一種基于數(shù)量監(jiān)督的多尺度感知麥穗計數(shù)網(wǎng)絡(luò)(CSNet),CSNet基于MLP-Mixer構(gòu)建全局特征關(guān)系獲得不同空間維度的小麥穗注意圖,使該模型能夠在僅依賴計數(shù)信息的情況下有效處理不同尺寸的小麥穗。CSNet由骨干模塊(backbone)、卷積塊注意模塊(CBAM)、多尺度感知模塊(MPM)和計數(shù)模塊(CM)組成,如圖2所示。具體而言,backbone提取圖像特征,而CBAM則聚焦于小麥區(qū)域的特征。為了更好地適應(yīng)麥穗的多樣性,我們設(shè)計了MPM以獲取麥穗在多個空間維度上的特征,從而提升模型對麥穗的識別能力。最后,CM使用全連接層和平均池化層直接回歸最終的計數(shù)結(jié)果。
圖2 CSNet的整體架構(gòu)
1.骨干模塊(backbone)
骨干是神經(jīng)網(wǎng)絡(luò)的重要組成部分,它負責(zé)特征提取,對模型的泛化能力、魯棒性和整體效率有重要影響。為了優(yōu)化模型在準(zhǔn)確率和資源開銷之間的平衡,我們選擇了VGG16的前10層,作為CSNet的骨干。該骨干在ImageNet上進行了預(yù)訓(xùn)練,初步具備了提取底層特征的能力,節(jié)省了計算資源,提高了計算效率,提高了模型的泛化能力。
2.卷積塊注意模塊(CBAM)
在雜草叢生、小麥相互遮擋的復(fù)雜環(huán)境中,模型需要減少對麥穗?yún)^(qū)域的關(guān)注,以便能夠有效地計數(shù)麥穗。為了解決這個問題,我們引入了一個高效輕量級的CBAM,它結(jié)合了通道和空間注意力。特別地,通道注意可以調(diào)整模型在每個特征之間的注意程度,使其關(guān)注基本特征(如麥穗的形狀、大小和紋理),而忽略無關(guān)特征(如麥穗上的光線變化和碎片)。空間注意力調(diào)整模型對圖像各區(qū)域的關(guān)注程度,從而增強對小麥區(qū)域的關(guān)注,減少背景區(qū)域(如雜草)的影響。
如圖2-A所示,骨干層輸出特征圖Mb,該特征圖通過CBAM模塊進一步優(yōu)化,得到特征圖Mf。與特征圖Mb相比,特征圖Mf在通道和空間上更關(guān)注麥穗?yún)^(qū)域。首先,在Mb上執(zhí)行空間平均和最大池化操作,分別得到每個通道的最大值和平均值。隨后,通過全連接層對每個通道的最大值和平均值進行加權(quán),得到通道注意力權(quán)重,表示為Ms,反映了對單個通道的關(guān)注程度。此外,通過對通道注意力權(quán)重Mc和特征圖Mb執(zhí)行點相似性操作,得到通道注意力特征圖Mcb。接著,在Mcb上進行通道平均和最大池化,并將結(jié)果通過卷積層,得到包含空間位置信息的注意力權(quán)重Ms。最后,將Mcb中每個空間位置與注意力權(quán)重Ms進行點乘操作,生成特征圖Mf,該特征圖在通道和空間上都增強了對麥穗的注意力。這一過程增強了對麥穗?yún)^(qū)域的感知焦點,并突出了麥穗的關(guān)鍵特征。CBAM過程的數(shù)學(xué)公式表達如下:
其中,σ表示Sigmoid函數(shù),F(xiàn)C表示全連接層,表示空間最大池化,表示通道平均池化。
3. 多尺度感知模塊(MPM)
為了在缺乏位置信息的情況下感知麥穗,我們采用基于MLP的MLP-mixer網(wǎng)絡(luò)中的mixer層,以學(xué)習(xí)每個patch與其他patch之間的關(guān)系,從而感知麥穗之間的關(guān)聯(lián)并進行計數(shù)。然而,由于麥穗在表型(大小、顏色和形狀)上存在較大差異,因此僅通過單一尺度來感知所有麥穗是不可行的。為了解決這一問題,我們提出了一種多尺度方法,該方法在多個空間中捕捉麥穗特征,以實現(xiàn)精確識別。如圖2-B所示,特征圖被切割成不同大小的patch,其中較小的patch可以捕捉到更細微的特征。通過在不同尺度上感知特征,MPM可以從多個空間維度區(qū)分特征,從而識別多樣化的麥穗。
具體而言,MPM主要將麥穗特征圖Mf切割并投影到多個特征矩陣上,這些特征矩陣通過mixer層進行信息交互,以獲取全面的全局注意力信息,如圖2-C所示。首先,將從CBAM輸出的麥穗特征圖Mf切割成512X16X16、512X8X8和512X4X4大小的n1、n2和n3特征patch。每個特征patch隨后被映射為一個特征向量,從而構(gòu)成一個特征矩陣,其中特征矩陣中的相同行代表同一空間中的不同通道,而相同列則代表不同空間中的同一通道。
接著,將特征矩陣輸入到mixer層進行信息交互,該層包括Layer Norm和MLP,特征矩陣的每一行通過Layer Norm進行歸一化處理,然后通過多層MLP進行信息傳遞。此外,代表不同空間或通道信息的特征矩陣行通過轉(zhuǎn)置進行互換,并在MLP中進行交互,以獲得全面的全局注意力信息。最后,MPM將具有不同尺度信息的三個特征矩陣進行拼接,并再次通過mixer層進行交互,生成一個整合了三維全局注意力的麥穗特征矩陣。mixer層融合并優(yōu)化來自多個尺度的特征,消除了差異并促進了統(tǒng)一的特征表示。
上述特征矩陣分別表示為T1、T2、T3和Tall,整個過程可以定義如下:
其中S表示切片操作,16X16表示切片補丁的大小,F(xiàn)i表示線性投影。另外,表示在i階上存在N個mixer層。
4.計數(shù)模塊(CM)
CM的設(shè)計目的是將特征轉(zhuǎn)換為數(shù)量,而不需要生成邊界框或密度圖,而是直接生成回歸計數(shù)。特別地,本文提出的CM利用MPM輸入到全連接層的信息豐富的小麥穗特征矩陣輸出進行降維并生成計數(shù)。為了減輕由于個體計數(shù)的內(nèi)在變異性而導(dǎo)致的顯著差異的可能性,CM同時預(yù)測一組計數(shù),模型采用通過平均池化匯總最終預(yù)測的小麥穗數(shù)。具體流程如下:
其中,σ表示ReLU函數(shù),表示最終預(yù)測計數(shù)。
5.實驗
為了驗證所提出的CSNet的有效性,我們將所提出的方法與目標(biāo)檢測算法、密度圖計數(shù)方法及于人群的計數(shù)監(jiān)督方法在GWHD2020和GWHD2021數(shù)據(jù)集上進行了比較,如表1所示。
表1 在GWHD2020和GWHD2021數(shù)據(jù)集上不同監(jiān)督方法的性能比較
選擇經(jīng)典網(wǎng)絡(luò)作為CSNet的骨干網(wǎng)絡(luò),進一步評估骨干網(wǎng)對模型性能的影響。所有模型都在ImageNet上進行預(yù)訓(xùn)練,以擁有提取通用的原始特征的基本性能,實驗結(jié)果如表2所示。
表2 不同骨干網(wǎng)絡(luò)對CSNet性能的影響
為了驗證多尺度感知模塊的有效性,我們對其進行了消融實驗。具體來說,我們構(gòu)建了一層、兩層、三次和四層,其中使用不同的切片大小來分割不同層中的特征信息,從而得到八種不同的結(jié)構(gòu),如表3所示。
表3多尺度感知模塊對CSNet性能的影響
此外,我們對CSNet進行了可視化實驗,以深入理解其在麥穗識別任務(wù)中表現(xiàn)。在具體的實驗中,我們在VGG16的最后一個卷積層中探索感興趣的區(qū)域,并使用熱圖將它們映射到原始圖像上,實驗結(jié)果如圖3所示。
圖3 特征可視化圖
計數(shù)是農(nóng)業(yè)領(lǐng)域的一項重要任務(wù),為農(nóng)民提供準(zhǔn)確的數(shù)據(jù)支持,有助于科學(xué)的農(nóng)業(yè)管理和生產(chǎn)決策。隨著計算機視覺技術(shù)的進步,農(nóng)業(yè)計數(shù)逐漸向自動化、智能化方向發(fā)展。然而,創(chuàng)建數(shù)據(jù)集的高成本已成為瓶頸,阻礙了該技術(shù)的廣泛采用,并難以滿足農(nóng)業(yè)的各種計數(shù)要求。因此,本文提出的方法旨在降低數(shù)據(jù)集創(chuàng)建的成本,從而實現(xiàn)低成本的自動計數(shù)。相比之下,一些農(nóng)業(yè)數(shù)量評估目前是手動執(zhí)行的,并且可以通過額外拍攝圖像獲得小型計數(shù)監(jiān)督數(shù)據(jù)集。但是,從單個區(qū)域的不同角度捕獲圖像允許標(biāo)簽重用并降低注釋成本。此外,對于在區(qū)域環(huán)境中生長的植物(例如葡萄和西紅柿),可以使用相機捕捉平移鏡頭。在這種情況下,同一集群的果實出現(xiàn)在不同的圖像必須只計數(shù)一次,從而減少重復(fù)計數(shù)的發(fā)生。對于整齊種植的作物,通過人工記錄行數(shù)和列數(shù),可以快速獲得定量信息。然而,對于密集種植或廣泛種植的作物,手動計算行數(shù)和列數(shù)可能是繁瑣的。CSNet是自動化計數(shù)過程的有效解決方案,同時將標(biāo)簽成本降至最低。
論文鏈接:
https://doi.org/10.34133/plantphenomics.0236
CSNet代碼地址:
http://csnet.samlab.cn/
——推薦閱讀——
Recognition and Localization of Maize Leaf and Stalk Trajectories in RGB Images Based on Point-Line Net
https://doi.org/10.34133/plantphenomics.0199
Plant Phenomics | Point-Line Net:一種自上而下的田間玉米葉脈生長軌跡檢測模型
Analyzing Changes in Maize Leaves Orientation due to GxExM Using an Automatic Method from RGB Images
https://doi/10.34133/plantphenomics.0046
Plant Phenomics 精選2023 | 基于RGB圖像的基因型×環(huán)境型×管理相互作用下的玉米葉片方向變化分析
加入作者交流群
掃碼添加小編微信,拉您進入《植物表型組學(xué)》作者交流群,群內(nèi)不定期開展作者分享會、?l(fā)布會等高質(zhì)量活動。
添加小編微信,備注姓名+單位+PP,加入作者交流群
About Plant Phenomics
《植物表型組學(xué)》(Plant Phenomics)是由南京農(nóng)業(yè)大學(xué)和美國科學(xué)促進會(AAAS)合作創(chuàng)辦的英文學(xué)術(shù)期刊,于2019年1月正式上線發(fā)行。采用開放獲取形式,刊載植物表型組學(xué)交叉學(xué)科熱點領(lǐng)域具有突破性科研進展的原創(chuàng)性研究論文、綜述、數(shù)據(jù)集和觀點。具體范圍涵蓋高通量表型分析的最新技術(shù),基于圖像分析和機器學(xué)習(xí)的表型分析研究,提取表型信息的新算法,作物栽培、植物育種和農(nóng)業(yè)實踐中的表型組學(xué)新應(yīng)用,與植物表型相結(jié)合的分子生物學(xué)、植物生理學(xué)、統(tǒng)計學(xué)、作物模型和其他組學(xué)研究,表型組學(xué)相關(guān)的植物生物學(xué)等。期刊已被DOAJ、Scopus、PMC、EI和SCIE等數(shù)據(jù)庫收錄?祁Nò睯CR2022影響因子為7.6,位于農(nóng)藝學(xué)、植物科學(xué)、遙感一區(qū)。2023年中科院期刊分區(qū)位于農(nóng)林科學(xué)大類一區(qū)。2020年入選中國科技期刊卓越行動計劃高起點新刊項目、2024年入選江蘇科技期刊卓越行動計劃領(lǐng)軍期刊項目。
說明:本文由《植物表型組學(xué)》編輯部負責(zé)組稿。
中文內(nèi)容僅供參考,一切內(nèi)容以英文原版為準(zhǔn)。
特邀作者:李耀羲
編輯排版:王平、張婕(上海交通大學(xué))
審核:尹歡、孔敏