公民寫手

【進階篇|人工智慧x農業】如何運用人工智慧預測棉花葉面積

作者 程煒倫

本篇將帶大家一瞥農業結合人工智慧,如何運用大數據來預測影響棉花產量的重要因子:會行光合作用的葉。

  • 階段1【淺談運用方式與概況】
  • 階段2【談談棉花葉面積和過往我們測量方式】
  • 階段3【人腦神經,是如何變成人工神經網絡的呢?】
  • 階段4【輸入資料|棉花葉片的樣本蒐集】
  • 階段5【訓練人工智慧後,會得到什麼答案?進一步分析】

______________________

階段1【淺談運用方式與概況】

大家都知道,植物透過葉子行光合作用產生能量,因此葉子的面積大小就成了作物長得好不好與生產力的重要關鍵。所以科學家們就實驗來用數學預測、與不同的儀器搭配來估測蔬菜和水果農作物的葉面積。

bt-cotton-636x363

來源|http://sustainablepulse.com/2015/06/10/gm-cotton-shows-no-commercial-benefit-for-indian-farmers-oxford-university-experts/

可以想像一下,外界資訊接收進入我們大腦,我們將資料記在腦中,當別人問我們問題時,我們想一想然後告知答案。這樣的流程,就像:接收,整理,再輸出

現在把我們人類的腦,變成電腦的腦(人工神經網絡(ANN)模型)

「可以將人工神經網絡(Artificial Neural Network)想像為我們人類腦神經網絡是如何運作,透過電腦程式描繪出相似的網路」,。

我們蒐集許許多多的棉花葉子的不同形狀與長相,輸入進我們大腦(電腦),來整理看看發現有什麼樣的規律,透過大量的經驗以及練習,因此當我們看見新的葉子,我們就能二話不說,馬上判斷新的葉子面積有多大。

大量的經驗|也就是棉花葉子的大數據,我們有兩萬份數據,若真的要人腦記,可記不起來。

不斷的練習|就是「深度學習」Deep Mining,如同才藝,必須不斷透過練習來校正,電腦也是!

人類有好的歸納,不管是圖型歸納、現象歸納…,形塑大自然,發明公式,都有賴人類的歸納與整合。而我們敏感度還是有限,視覺會疲勞、過於小的尺度如奈米,依舊得倚賴工具。

這是我們腦(電腦)預測棉花的葉子面積的簡單流程(Artificial Neural Network Model for the Prediction of the Cotton Crop Leaf Area)。在人工神經網絡中,我們有三層:輸入層、隱藏層、輸出層,我們用測量出最適合的模擬結果。輸入層有:葉寬、主葉長、右葉長度和左葉長,共4個節點,中間一隱藏層(六節點)和一個輸出層:葉面積,一個節點,也是我們所求的答案。

機器的模擬大腦運算完,跟實際相比倒底準不準呢?可以發現判定係數(R2)為0.9232,而我們都知道判定係數越接近1越準!也就是說用人工神經網絡模型順利的描述了棉花葉面積測量與預測的關係。這模型方法可簡單用於農藝學家和植物科學家來使用棉花作研究。

Screen Shot 2017-10-31 at 12.41.34 PM

圖。 最佳神經網絡體系結構(4-6-1)預測棉花葉面積

階段2【談談棉花葉面積和過往我們測量的方法吧!】

說到棉花,它是埃及最古老的栽培植物之一,這對小規模耕種的埃及農民是非常重要經濟作物。植物行光合作用的器官是葉,像葉的形狀、大小、面積和單株葉的數目,都會影響棉花的種子產量。在研究農作物葉面積,他的原始數據的扮演重要的角色,來預測植物生長、作物的生產力、分析營養汲取,甚至還可作為水的使用分析及雜草管理、植物害蟲的方法。

而我們在作葉面積測量時常用昂貴的方法,包含人工掃描機、雷射光學儀及預估模組等等。然而有時我們只是要做簡單基礎的研究上,會太過複雜以及花費昂貴。一些在葉子的預估公式上會用「多重線性迴歸」的統計方式來測量作物、蔬果。

「多重線性迴歸」被視為非常強大的工具被廣泛使用來研究變異因子與預測因子間的關係。多重線性迴歸方法作為一個僅需輸入葉維度的快速、非破壞性的葉測量方法。

公式使用「多重線性迴歸」可惜在,它只有當「響應」和「預測變量」之間的關係他們呈現線性時是有用的,換句話說在圖形上,也就是一個數字對應到一個數字。但是,在現實的情況下,這種假設其實很少呢。如果有多個預測值,就可能會變成非線性的函數。

Screen Shot 2017-10-31 at 12.50.06 PM

幸運的是,「人工神經網絡」是用非常靈活的方式來處理,基於生物神經網絡的行為計算模型,讓一個特定輸入input)可以透過我們調整(訓練)引導到指定的目標輸出output)。可以用相對較短的時間內獲得分析的結果,在處理大量數據時也是。他提供完整型態模組的結果來吻合變量、與在生物和農業系統的難以測量現象。

階段3【人腦神經,是如何變成人工神經網絡的呢?】

人工神經網絡模型發明是根據人的大腦和生物神經元。生物神經元由三個主要部分組成:

1)樹突,通道輸入信號;

2)一細胞本體,處理輸入信號;

3)軸突,輸出信號發送到其它連接的神經元。

在大腦中,每個神經元的軸突經由電化學介質稱為神經遞質發送信息到其它神經元。一個神經元的突觸收到大約10,000其他神經元信息。

Screen Shot 2017-10-31 at 12.56.51 PM

圖。 生物神經元簡化模型

跟腦包含大量的神經元的數目很像,人工神經網絡有大量的元件稱為人工神經,用來處理跟傳輸信息。神經元他們的結構就稱為網絡,通過聯繫被稱為權重(就像我們考試科目不同有加權指數、在神經元也有);在學習過程中的權重值他可以自由地改變或修改。神經元在網絡中連接的模式、分佈在哪還有發生機率,決定網絡形成的種類跟他作用的類型。

Screen Shot 2017-10-31 at 12.56.58 PM

圖。 i個輸入變異與輸出層含有k個神經元的人工神經網絡

我們可以想像是不同信號輸入神經元細胞一樣。

(「集合x1,…xi 」代表「輸入的信號」(例如葉寬,葉長),wki」是「神經突觸加權值」,bk」是「偏壓」,vk」是「神經元k的活化電勢」,φ(.) 」是「激活函數」。「所有輸入」乘以「所有突觸加權值」的總和就是 yk(神經元k)輸出信號」。)

Screen Shot 2017-10-31 at 12.57.05 PM

用數學稍微整理一番,就變成了上面兩個公式。而神經網絡的神經元被分成層,在輸入層和輸出層之間的夾層叫作隱藏層;信號發送從輸入層傳到隱藏層由輸出層輸出。

Screen Shot 2017-10-31 at 12.57.10 PM

圖。 簡化三層全連接人工神經網絡

在設計神經網絡模型的時候,很重要的一點是他怎麼進行分配跟規劃什麼空間配置是最合適的,也就是有多少層跟每層有多少神經元的數量。如果太少層神經元會導致錯誤的結果(就是俗稱的腦洞,腦子不好使),而高估會導致測試數據的偏擬合(腦子太過度了,很偏激啊,一個人小題大作)在大多數農業研究,訓練的學習方法的「前饋網絡」用在開發預測的模型公式。

階段4【了解電腦大腦是什麼後,要來採集要輸入的資料,也就是:棉花的葉片作為樣品!】

我們將葉子蒐集自3冠層。

Screen Shot 2017-10-31 at 12.57.15 PM

圖。 圖解棉花植株冠層。

Screen Shot 2017-10-31 at 12.57.20 PM

圖。 棉花葉圖,顯示測量尺寸。

總共240片葉子,收集一些葉尺寸像葉寬(左右距離W),葉長(主瓣長度或主瓣尖端和葉原點之間的距離 L),右葉長度(圖右瓣尖和葉片原點之間的距離(L1)),左葉長度(距離左葉尖到葉原點(L2))

Screen Shot 2017-10-31 at 12.57.36 PM

圖。 實際葉圖紙描繪

統計完了!你可以看到葉片測量出長度的最小值跟最大值。

Screen Shot 2017-10-31 at 12.57.43 PM

棉花主瓣長度的範圍為9.122.9公分之間,棉葉寬的取值範圍為6.826.2公分,棉花右葉瓣長度的範圍為6.419公分,左棉花葉瓣長度的取值範圍為6.219.2公分和測量的棉花葉面積的範圍是38.7321.4公分平方。

  Screen Shot 2017-10-31 at 1.19.13 PM

階段5【資料收集好,開始訓練Training,將資料放入電腦大腦內訓練,最後分析】

這個階段,就相當於我們在練習鋼琴一樣,記琴譜與背譜,慢慢訓練到越來越不會出錯。

我們將圖片進行的測量與記錄用在建置人工神經網絡模型。220,00個數據(用來作為訓練)和20個數據(用來驗證)由軟體從數據庫隨機選擇,用來訓練還有測試神經網絡模型。根據「最高的相關係數」和「最低的訓練誤差」來挑選出最好的人工神經網絡模型。迭代固定為200,000。學習速率和動量係數固定,分別為0.020.8。最佳的人工神經網絡ANN結構在隱藏層有6個神經元,訓練的網絡結構跟我們前面提到的 4-6-1的一樣的。

Screen Shot 2017-10-31 at 12.41.34 PM

圖。 最佳神經網絡體系結構(4-6-1)預測棉花葉面積

Screen Shot 2017-10-31 at 12.58.07 PM

圖。標準化模組輸出之方均根誤差(葉面積)

這上圖就是最佳電腦大腦ANN結構的訓練誤差曲線,然而訓練誤差是0.023883

ANN模型訓練測試的統計分析可以看下面表單。

Screen Shot 2017-10-31 at 12.58.23 PM

接著我們要來評估實際與預測間的人工神經網絡輸出誤差,就要透過「統計」。普遍的方式是平均絕對誤差(MAE)、方均根誤差(RMSE)和平均相對誤差(MRE):(看看就好)

Screen Shot 2017-10-31 at 12.58.29 PM

總之經由代入數字,測試出經過訓練後的電腦大腦是很有效的!

(其中LAviobsLAvipre分別為是實際和預測的棉花葉面積,N是觀測數。計算決定係數(R2),以測量實際和預測之間的葉面積相關性。R2的值越接近是1,模型越吻合到實際的數據。)

Screen Shot 2017-10-31 at 12.58.36 PM

圖。在訓練階段利用開發人工神經網絡模型預測之棉花葉面積和實際棉花葉面積的關係

表:在訓練和測試過程中,神經網絡模型預估出的平均絕對誤差(MAE),方均根誤差(RMSE)和平均葉面積的預測相對誤差(MRE

Screen Shot 2017-10-31 at 12.58.51 PM

方均根誤差RMSE在訓練和測試階段測得的(實際)葉面積之間的和預測的葉面積分別是9.65平方公分和18.81平方公分,表示測定的棉花葉面積和利用人工神經網絡模型預測的棉花葉面積之間有很好的一致性。

【結論與分析|人工智慧進而分析人類難以歸納出的細微差異】

在人工神經網絡模型訓練後,我們進行敏感性分析,調查其中每個輸入(葉長、寬)與輸出變量(面積)的相對貢獻程度。

如圖為預測棉花葉面積描繪輸入因子的貢獻百分比。棉花葉面積貢獻程度:葉寬對網絡輸出貢獻29.03%,主瓣長度貢獻13.21%,右葉長度貢獻25.18%,左葉長貢獻32.58%。

Screen Shot 2017-10-31 at 12.58.46 PM

圖。四個輸入節點對於網絡響應的相對重要性

作物生長和生產力的研究中,葉面積是重要的指標,表著著植物生長、估計植物生產力、分析養分攝取、葉面積之水份管理、雜草管理及其他對植物有害的生物。也因此,有不同的儀器跟預測模型使用跟開發來估算不同作物的葉面積:例如蔬菜和水果。

在這個研究的中,人工神經網絡(ANN)預測棉花葉面積,人工神經網絡模型能夠解釋葉面積較準(訓練)數據的97.54%變異量、檢驗(測試)數據的92.32%變異量,葉寬、葉長、第二右葉的長度和第二左葉長分別為用作輸入變量。雖然葉寬,葉長,右二葉長和第二左葉長顯著的對人工神經網絡模型的預測做出了貢獻,左葉長略優,貢獻32.58%的預測能力。

藉由工具幫助我們理解觀察這個世界,例如肉眼難以觀察的微生物,我們就透過顯微鏡;肉眼看不遠,就利用望眼鏡;無法游這麼遠的距離,就有船、無法潛水,就有潛水艇。而在細微的區別、或大量的數據海中,人類難以記,很難歸納與判斷的,例如,身高要高,通常右手還是左手影響比較大?我們得以透過大量數據,利用人工智慧、神經網絡的方式,利用電腦的深度學習,來擴大我們的五官。

但對於最後的結果,要賦予什麼樣意義、還有判別資料結果還是得靠我們人類。

就如同,用顯微鏡,幫助我們看見微生物,我們不會害怕顯微鏡,那畢竟是工具而已,而看見微生物後,有什麼用處?只有我們自己知道。

來源:http://sustainablepulse.com/2015/06/10/gm-cotton-shows-no-commercial-benefit-for-indian-farmers-oxford-university-experts/

出處:International Journal of Plant & Soil Science 8(4): 1-13, 2015; Article no.IJPSS.19686

作者:A. M. Aboukarima, H. A. Elsoury and M. Menyawi