借助計算機建模及 eBird 數據集,馬薩諸塞大學成功預測鳥類遷徙
關鍵詞:BirdFlow 自然保護 概率模型
鳥類遷徙是一個令人著迷的自然現象。據了解,世界上近五分之一的鳥類會因繁殖和越冬而進行定期的遷徙。在生態學中,研究鳥類遷徙路線等生態規律,對保護瀕危鳥種、維護生態平衡、防止流行病的傳播等具有重要意義。
近年來,由于全球氣候變化以及人類活動等因素的影響,預測鳥類遷徙變得更加困難。近期,馬薩諸塞州立大學阿姆赫斯特分校的研究生 Miguel Fuentes 和康奈爾大學的 Benjamin M. Van Doren 等在《Methods in Ecology and Evolution》期刊上發表了一個新的概率模型 BirdFlow,該模型利用計算機建模和 eBird 數據集來準確預測候鳥的飛行路徑。
本研究成果發表在《Methods in Ecology and Evolution》
論文地址:
https://besjournals.onlinelibrary.wiley.com/doi/full/10.1111/2041-210X.14052
研究人員利用 eBird Status & Trends project 產生的相對豐度估計 (abundance esitimates) 來模擬鳥類移動,不過其中也有一個問題,過往相對豐度信息只能顯示出每周鳥類的位置范圍,并不能追蹤個體。因此在本次研究中,研究人員重點解決了這個問題,關鍵流程如下圖所示:
圖 1:數據準備和建模過程
Data Preprocessing:預處理相對豐度估計以產生每周的種群分布;
loss function:指定一個損失函數,使用每周分布以及能量成本的代理對潛在的模型進行評分;
Model Structure:選擇一個模型結構;
Trained Model:通過數值過程優化損失函數以選擇最佳的模型參數;
Validation:計算真實鳥類的平均對數似然和 PIT 值,來驗證訓練后的模型。
BirdFlow 建模概覽
研究人員使用 ebird R 從 eBird Status & Trends 中下載了 11 種鳥類的相對豐度估計值,并且這 11 種鳥類還有可用的 GPS 或衛星跟蹤數據。
eBird Status and Trends:
https://science.ebird.org/zh-CN/status-and-trends
表 1:使用的 11 種鳥類的 GPS 跟蹤數據
下一步,研究人員定義了一個損失函數,該損失函數基于從 eBird Status&Trends 中導出每周種群分布、鳥類在不同位置之間的運動能量成本以及熵正則化項。
在對損失函數優化前,需要先指定一個模型結構,這里研究人員證明了優化過程只限制在馬爾科夫鏈 (Markov chains) 上搜索是合理的。因此,他們將鳥類的運動建模為馬爾可夫模型,并進行優化,包括使用馬爾可夫鏈參量化和優化算法。
經過以上步驟,研究人員獲得了一個訓練后的模型,并對其進行了相關驗證。
BirdFlow 驗證過程
驗證過程分為三部分,分別為超參數網格搜索 (Hyperparameter grid search)、熵校正 (Entropy calibration)、K-周預測 (k-week forecasting),具體過程及試驗結果如下。
超參數網格搜索
驗證模型階段,研究人員執行了一個超參數網格搜索,并用搜索結果研究了兩個問題。
第一,研究人員通過一個消融研究,探究了熵正則化項和距離指數對模型質量的影響。消融研究結果如下圖,可以看到所有的 BirdFlow 模型表現的都比只包含鳥類相對豐度的基準模型要好。
圖 2:模型類型消融研究
第二,研究人員通過兩種超參數選擇方法探究了模型對超參數選擇的敏感性。試驗結果如下圖所示,對大多數鳥類來說,使用 LOO 參數(其他鳥類的驗證跟蹤數據選擇)的模型與使用 tuned 參數(使用該鳥類的驗證跟蹤數據)的模型表現一樣好。其中,性能是以 1 周過渡的平均對數似然 (log-likelihood) 來衡量的。
圖 3:參數敏感性
熵校正
下圖展示了熵正則化對模型校準的影響。在不同熵權重下,5 個版本的丘鷸模型 (American Woodcock model) 的隨機概率積分變換 (PIT) 直方圖顯示了訓練模型對丘鷸一周的東西方位預測情況。
可以看到,直方圖幾乎一致,表明模型的校準表現良好。
圖 4:熵正則化對模型校準的影響
k-周預測
圖 5 和圖 6 展示了不同預測時間(以周為單位)下的模型性能。研究人員從超參數網格搜索中確定了表現最佳的模型,并評估了從 1 到 17 周,此最佳模型相對基準模型的表現。
圖 5(a) 顯示了每種鳥類的結果。可以看到,隨著時間的增加,各個鳥類最佳模型的表現能力越來越接近基準模型。圖 5(b) 顯示了丘鷸 tuned 模型、LOO 模型和基準模型的差距對比。可以看到,預測時間內,tuned 模型、LOO 模型表現能力得都比基準模型好。
圖 5:預測性能圖
圖 6:小丘鷸模型推理結果
經過以上試驗,研究人員發現 BirdFlow 能利用 eBird 的每周相對豐度估計準確推斷出個別鳥類的遷徙路徑,而且結果顯示,BirdFlow 預測的結果遠比基準模型要好得多。
基于這個成果,研究人員認為除了探究鳥類遷徙這個自然現象外,BirdFlow 模型或許還能夠用于其他現象的研究,例如鳥類的中途停留行為及其應對全球變化的反應。
然而,盡管 BirdFlow 模型取得了一系列成果,但北美和歐洲一些研究員則對其使用 eBird 數據庫表示質疑,他們認為用觀鳥作為收集數據方法并不嚴謹。對此,BirdFlow 研究人員表示,該團隊正在考慮整合進更多數據,比如衛星或 GPS 跟蹤鳥類位置的數據。
AI 或將成為自然保護神
BirdFlow 模型的出現,意味著人類在鳥類遷徙相關研究上,開辟出了機器學習這一捷徑。盡管仍處于早期階段,距離自然保護等落地應用也還有一定距離,但這項研究無疑透露出一個重要趨勢,AI 正在被廣泛應用于自然保護領域。
卡內基梅隆大學研究人員開發的 PAWS,能為警察生成一個針對偷獵者們巡邏的路線;康納爾大學開發的 Merlin 能根據鳥類的歌聲和圖像識別物種;而 Resolve 開發的 TrailGuard AI 則能夠通過識別可疑偷獵者的圖像、發出警報的方式保護野生動物。
自然生態系統對人類的重要性不言而喻,保護生態系統也迫在眉睫,而隨著時間的推移,AI 又會扮演怎樣的新角色?歡迎大家發散思維,評論區討論。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。