博客專欄

        EEPW首頁 > 博客 > 爬取 2 萬多張 Flickr 圖片,莫納什大學復現 10 年間日本櫻花開放的時空特征

        爬取 2 萬多張 Flickr 圖片,莫納什大學復現 10 年間日本櫻花開放的時空特征

        發布人:數據派THU 時間:2023-07-17 來源:工程師 發布文章

        內容一覽:近年來,全球氣候變化形勢嚴峻,由此引發的蝴蝶效應,正深刻地影響著人類和大自然。在這一背景下,收集數百甚至數千公里范圍內開花模式的數據,了解氣候變化如何對開花植物產生影響,成為近年來生態研究的重要課題之一。但傳統的方法通常需要耗費大量經費,且需要較長的時間進行采樣調查,后勤保障工作也面臨著重重困難。而近期發布在《Flora》期刊上的研究,不僅克服了這些問題,同時還揭示出前所未有的細節。


        關鍵詞:時空分析   智慧生態學   SNS 數據


        櫻花作為日本的國花,在大和文化中有著重要的地位。賞花(Hanami,花見),作為極具特色的民間習俗,已有了數百年的歷史。然而日本縱跨緯度約 20 度,全國可分為 6 個氣候區,各地氣候差異明顯,因此櫻花綻放的時間也各有不同。每值櫻花季節,日本的旅游網站也會詳細展示各地開花情況,供游客安排賞花時間。近年來,受到氣候變化的影響,日本櫻花的開放時間也在不斷提前。


        為了探究日本櫻花的開花模式,理解氣候變化對物候學的影響,澳大利亞莫納什大學的研究團隊,利用 Python API 與計算機視覺 API,通過社交網站 (SNS) 數據來監測日本的櫻花開放情況,并對實驗結果與現實情況進行了對比驗證。目前該研究已發表在《Flora》期刊,標題為「The spatiotemporal signature of cherry blossom flowering across Japan revealed via analysis of social network site images」。


        圖片

        該研究成果已發表于《Flora》期刊

        論文地址:https://www.sciencedirect.com/science/article/abs/pii/S0367253023001019


         實驗過程:數據集的爬取、過濾及分析


         數據集 


        本次實驗收集櫻花開放數據的過程可以分為兩個步驟:


        1. 從社交網站提取圖片數據,包括幾個不同的連續階段

        2. 利用計算機視覺 API 及人工核驗的方法,對數據進行相關性過濾


        考慮到 API 需要同時對時間、空間、文本進行過濾,研究人員選擇了 Flickr 作為數據源。首先,使用 Python API 客戶端,通過搜索關鍵詞「cherry blossom」,在 Flickr 上收集帶有地理坐標的相關圖片。


        其次,設置 Bounding Box 為 31.186°N-46.178°N, 129.173°E-145.859°E,以確保圖片是在日本拍攝。時間范圍設定為 2008 年- 2018 年,以排除 COVID-19 導致的全球旅游業下降對數據的影響。


        然后,研究人員借助從 gadm.org 獲取的日本地理邊界進行遮罩處理,從而過濾這些數據,最終獲得 80,915 張圖片。



        圖片2008 年 1 月 1 日至 2018 年 12 月 31 日
        Flickr 上搜索定位在日本的「cherry blossom」圖片


        1、2 月份(藍色)表示春季來臨前的櫻花初放;


        3-5 月份(綠色)表示記錄春季主要櫻花盛開期的攝影數據集中度;


        10-12 月份(粉色)則表明了在秋季尤其 11 月達到高峰的有趣現象。


        盡管 Flickr 的圖片通過搜索關鍵詞「cherry blossom」進行了限制,但 SNS 內容仍然可能會與搜索詞錯誤關聯,因此需要驗證。


        對此,研究人員將所有圖片提交至 Google Cloud Vision AI,該 API 可以根據每張圖像的視覺內容,為其生成了描述性文本標簽,從而對單個數據點相關性,自動進行 double-check。


        Google Cloud Vision AI 使用預先訓練好的機器學習模型,在預定義類別中為圖像分配標簽。此外,研究人員還對樣本數據進行了額外的手動核查,如下表所示:


        圖片表 1:Tokyo-filtered 數據集中,各階段的圖像數據


        B 列:在 Flickr 搜索「cherry blossom」返回 28,875 張圖片,這些圖片地理坐標都位于東京地區的行政區域內


        C 列:計算機視覺 API 為此數據集返回的文本標簽及其相對頻率。從文本標簽過濾器返回的圖像中,有 21,908 張被計算機視覺 API 標記為「cherry blossom」,但由于部分圖像也被標記為「autumn」或「maple tree」,因此被剔除后,最終得到 21,633 張圖像


        D 列:結果圖像隨機選出用于人工檢查的樣本


        E 列:經人工檢查確認為櫻花的圖像數量


        F 列:每月自動處理方法(計算機視覺和標簽分析)的預估精度,計算方法為 E/D


        G 列:利用該精度,計算 2、3、4 月總共拍攝到的櫻花圖片數量,計算方法為 C*F


         評估方法 


        為了估計櫻花的盛開日期,研究人員為數據集中的所有圖像生成了以天為單位的時間序列,然后用 7-day width 的三角移動平均指標 (triangular rolling average) 進行處理,中心點賦 unity weight,其兩側緊鄰的點賦 0.75 的權重,接下來最接近的點分別賦 0.5 和 0.25 的權重,以此來平整由周末(休閑時間,攝影活動明顯增加)和工作日賞花人數不同而帶來的拍攝行為 (Photographic activity) 波動。


        得出的圖表中所顯示的拍攝行為波峰,被確定為是櫻花盛開的全盛期(mankai)。


         對比驗證:預測結果與實際數據一致


        日本對櫻花盛開現象的記錄最早可追溯到公元 812 年,自 1953 年起開始有了官方正式的觀測記錄。為了驗證團隊的分析方法,實驗團隊選擇了東京和京都兩座熱門賞花城市的數據,并與日本氣象公司 (JMC)、日本國家旅游組織 (JNTO) 每年公布的櫻花全面盛開日期進行對比,計算出實驗所得峰值日與官方公布日期之間的誤差。


        通過實驗,研究團隊得出了日本全國櫻花開放的可視化時空數據,1 月下旬 (wks 3-4) 至 5 月下旬 (wks 3-4),櫻花開放首先從南部氣候溫暖的地區逐漸向北方推進,最后由南向北逐漸退縮。如圖所示:


        圖片圖 2: 2008-2018 年日本櫻花拍攝地點
        每張圖的周期對應兩周


        A-C:櫻花圖片出現在日本南部較溫暖的地區,圖片高度集中出現在本州島的東京與京都的城市中心


        D-F:櫻花圖片增加,開始向本州島北部延伸


        G-I:櫻花位置向北擴展,出現在北海道札幌,東京和京都拍攝行為依然活躍,北海道和本州島北部,櫻花拍攝行為更加集中。最后,全國范圍內的櫻花照片逐漸減少,由南到北退去。


        實驗團隊將經過處理的東京與京都地區櫻花活動攝影日時間序列的峰值,與 JMC/JNTO 所公布的日期進行了比較驗證。結果顯示東京地區的均方根誤差為 3.21 日,京都地區為 3.32 日。如下圖:


        圖片圖 3:東京地區二者評估的日期對比


        左欄:通過本實驗方法所估計的歷年東京櫻花全盛日期

        中欄:JNTO 歷年報道的東京櫻花全盛日期

        右欄:誤差,即二者相差天數


        圖片圖 4:京都地區二者評估的日期對比


        左欄:通過本實驗方法所估計的歷年京都櫻花全盛日期

        中欄:JNTO 歷年報道的京都櫻花全盛日期

        右欄:誤差,即二者相差天數


        在實驗團隊的數據中,還揭示出了櫻花在秋季開放的現象。這在 JNTO 所公布的數據中并沒有正式指出,體現出了 SNS 數據有能力解析小概率事件,揭示異常的物候學現象,如非季節性開放時間,這對于評估一年四季甚至意外情況下可供獲取的花粉花蜜等芳香資源極其重要。


         SNS 數據:為生態研究提供新洞見


        世界氣象組織今年 4 月發布的一篇文章顯示,2022 年的全球平均溫度比 1850-1900 年的平均值高出了 1.15℃,人類對氣候變化的感知較為遲滯,植物則格外敏感。在全球氣候變暖的影響下,不僅是日本櫻花,我國多地的開花植物也受到了影響。


        根據武漢大學櫻花觀測數據,從上世紀 60 年代開始,武漢大學櫻花的始花期明顯提前,2000 年之后更是不斷突破記錄,一度由 3 月下旬提前至 2 月下旬。


        20 世紀 90 年代前,山東菏澤的牡丹開花時間主要集中在 4 月下旬,2010 年前后提前到 4 月中旬,近幾年更是在 4 月上旬便可觀測到花開。


        油菜開花的時間也同樣有了顯著提前的趨勢,江西婺源油菜花今年 2 月 22 日就見花了,3 月 13 日進入開花盛期,而在 30 年前,油菜花開花時間一般在 3 月中旬。


        Kepios 發布的一份報告顯示,截止 2023 年 4 月,全球社交媒體用戶數量達到 48 億,占全球總人口的 59.9%,平均每人每天花費 2 小時 24 分鐘使用社交媒體應用,產生海量社交網絡數據,有望為生態研究提供新洞見。


        作者在本論文中提出的 SNS 分析技術,可以填補公開數據中缺失的部分,幫助科研人員理解氣候變化對于開花植物產生的不同程度的影響,對理解蜜蜂、昆蟲等重要傳粉者的行為具有積極意義。


        參考文章:[1]https://www.sciencedirect.com/science/article/abs/pii/S0168192320303117[2]https://link.springer.com/chapter/10.1007/978-4-431-66899-2_8[3]http://sh.cma.gov.cn/sh/qxkp/qhbh/zhykp/202304/t20230425_5464832.html[4]https://datareportal.com/social-media-users


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 黎平县| 枣强县| 合川市| 静乐县| 宣化县| 余干县| 武乡县| 五河县| 思南县| 广饶县| 长岛县| 郓城县| 白水县| 社会| 博乐市| 宜宾市| 洞口县| 栖霞市| 河津市| 永德县| 尤溪县| 西乌| 南岸区| 平定县| 岳普湖县| 礼泉县| 郑州市| 易门县| 通州区| 沁阳市| 西和县| 宁强县| 保定市| 揭阳市| 伊吾县| 庄浪县| 麦盖提县| 峨山| 花莲县| 西安市| 三台县|