博客專欄

        EEPW首頁 > 博客 > 騰訊AI Lab聯合清華、港中文,萬字解讀圖深度學習歷史、最新進展與應用(8)

        騰訊AI Lab聯合清華、港中文,萬字解讀圖深度學習歷史、最新進展與應用(8)

        發布人:騰訊AI實驗室 時間:2020-09-29 來源:工程師 發布文章

        三、圖神經網絡的應用進展

        圖神經網絡作為一種有效的深度學習工具,已經在分子屬性預測、生物學分析、金融等許多領域得到了應用。這里以騰訊 AI Lab 實現的在社交網絡和醫療影像領域的應用為例,介紹圖神經網絡的應用進展。

        1.用于社交網絡的 GNN

        首先來看一篇 WWW 2019 論文《Semi-supervised graph classification: A hierarchical graph perspective》,其中騰訊 AI Lab 提出了使用分層圖實現半監督圖分類的方法。

        分層圖是指一組通過邊互相連接在一起的圖實例,如圖所示:

        1601373441284692.jpg

        在許多現實應用中,很多數據都可以建模成分層圖的形式,比如具有分組結構的社交網絡和文檔集合(比如具有引用關系的graph-of-words)。如上所示,假設我們有一個「用戶-分組」分層圖,我們知道其中部分標簽,我們可以怎樣預測其它組的標簽?

        如果僅考慮組之間的聯系,那么這個問題就又回到了節點分類。但是,可以看到每一組都有自己的用戶圖,忽略這樣的信息并不合適。為了在用戶和分組層面上利用圖信息,我們面臨著這樣的難題:如何將任意大小的圖表征為固定長度的向量?如何整合實例層面和分層層面的信息?

        首先來看第一個問題。圖表征與節點表征在不同的層面上;在節點層面上圖 G 會被投射到大小為 n×v 的隱藏空間中;而在圖層面上圖 G 會被投射成大小為 v 的隱藏向量。因此,為了將節點層面的空間轉換成圖層面的向量,這里引入了自注意力圖嵌入(SGAE)

        1601373465839000.jpg

        首先,將單個圖通過一個兩層 GCN,得到節點層面的表征 H,其大小為 n×v,然后根據上圖中的 S 計算自注意力。在經過一個 softmax 函數之后,會得到一個具有 r 個頭的多頭自注意分數,其大小為 r×n。然后,如果我們將這些分數應用到節點層面的表征,我們就會得到大小固定為 r×v 的矩陣。SAGE 有三大優勢:1)其大小因自注意力而保持不變,2)因為 GCN 平滑而具有排列不變性,3)因為自注意力而能使用節點重要度。

        對于第二個問題:如何整合實例層面和分層層面的信息?這里實例層面是基于 SAGE 的圖層面學習,分層層面模型是節點層面的學習。我們使用了特征共享來連接 SAGE 的輸出和 GCN 的輸入。然后又引入一種新的分歧損失(disagreement loss)來最小化實例分類器和分層分類器之間的不一致情況。

        1601373485493859.jpg

        另外,我們還使用了主動學習來解決樣本數量少的問題。我們使用了分歧損失來為外部標注選擇實例。有關這兩種算法 SEAL-AI 和 SEAL-CI 的詳情以及相關實驗結果請查閱論文。

        1601373521423052.jpg

        接下來看騰訊 AI Lab 另一項被 AAAI 2020 接收的研究《Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks》,提出了一種通過雙向圖卷積網絡實現社交網絡謠言檢測的新思路。

        謠言可算是當今社會面臨的一大頑疾。這篇論文提出通過關注和轉發關系來檢測社交媒體上的謠言。不管是謠言還是新聞,它們的傳播模式都是樹結構的。但通常來說,謠言的傳播有兩個屬性。第一如下圖 b 所示,其會沿一條關系鏈進行很深的傳播。第二如圖 c,謠言在社交媒體上傳播時散布很寬。舉個例子,一個 Twitter 用戶可能有大量關注者。

        1601373540623773.jpg

        為了同時獲取謠言傳播的這兩種屬性,我們設計了一種基于 GCN 的新模型。這個用于謠言檢測的雙向 GCN 包含 4 個組件:1)兩個不同的有向圖,用于描述謠言的傳播和擴散度;2)使用二層 GCN 來計算高層面的節點表征;GCN 不僅能學習特征信息,還能學習謠言的傳播拓撲結構;3)經過觀察,根節點通常就已經包含了謠言或新聞的主要內容,而關注者通常只是不帶任何內容進行轉發,因此通過將根特征連接到樹中的每個節點,可以增強每層的隱藏特征;4)分別根據節點表征對傳播和擴散度的兩個表征進行池化處理。這兩個表征再被聚合到一起得到最終結果。

        1601373557761240.jpg

        我們在 Twitter15、Twitter16、Weibo 三個常用基準上的實驗研究對這一方法的效果進行驗證,結果表明新方法具有顯著更優的表現。

        此外,我們還評估了謠言的早期偵測,此時僅給出謠言樹上非常有限的節點并且還設置了一個偵測截止時間,結果表明基于圖的方法非常適用于早期發現謠言。

        2.用于醫療影像的 GNN

        醫療影像也是 GNN 的一個重要應用場景,騰訊 AI Lab 近兩年在這一領域取得了一些重要的研究成果。首先來看騰訊 AI Lab 的 MICCAI 2018 論文《Graph CNN for Survival Analysis on Whole Slide Pathological Images》,其中提出使用圖卷積網絡基于全切片病理圖像進行生存分析。

        生存分析的目標是預測特定事件發生的風險,這類事件包括器官衰竭、****物不良反應和死亡。有效的分析結果具有重要的臨床應用價值。但實際操作時卻面臨著許多困難。

        首先,全切片病理圖像(WSI)分析是一個需要大量計算的過程,因為單張 WSI 的數據量就超過 0.5 GB,而且其中包含數百萬個細胞,還涉及局部特征和全局特征,因此非常復雜。另外,如何將 WSI 的拓撲特征用于生存分析也還是一個有待解決的問題。

        為此,我們提出將 WSI 建模成圖,然后開發了一種圖卷積神經網絡(Graph CNN),其使用了注意力機制,可通過提供 WSI 的最優圖表征來實現更好的生存分析。

        1601373589647450.jpg

        實驗結果表明,這種新方法優于之前的其它方法。

        這一部分同時也介紹了近年來GNN在醫療圖像上的其他工作:在IPMI2019發表的《Graph Convolutional Nets for Tool Presence Detection in Surgical Videos》中,作者提出使用 GCN 來檢測手術視頻中的工具,這是自動手術視頻內容分析的核心問題之一,可用于手術器材使用評估和手術報告自動生成等應用。這個模型使用了 GCN 沿時間維度通過考慮連續視頻幀之間的關系來學習更好的特征。

        而在MICCAI 2020發表的論文《Graph Attention Multi-instance Learning for Accurate Colorectal Cancer Staging》中,作者提出使用圖注意力多實例學習來準確判斷結直腸癌是處于早期、中期還是晚期。

        總結和展望

        在這次課程中,我們介紹了圖神經網絡的發展歷史、包括圖神經網絡的表達能力、深度、大規模擴展、自監督/無監督學習等方面的研究進展,也簡要介紹了騰訊 AI Lab 在圖神經網絡的社交網絡和醫療影像應用方面的一些初步成果。

        圖深度學習領域仍處于發展之中,有很多有趣的問題等待解決,例如逆向圖識別(IGI),即我們在圖分類問題中,是否可以根據圖的標簽來推斷每個節點的標簽?子圖識別,即如何在圖中找到關鍵的子圖同時還有圖與多示例學習問題的結合形成多圖示例學習問題,以及在圖上進行攻擊與防御相關的圖深度學習魯棒性的研究。最后,層次圖也是一個熱門的研究方向。圖神經網絡必將在人工智能領域未來的研究和應用中扮演更重要的角色。

        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞:

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 江门市| 光泽县| 黄陵县| 那曲县| 漳平市| 榆林市| 赤壁市| 黔西县| 西城区| 慈溪市| 东宁县| 峡江县| 芷江| 中宁县| 南溪县| 蓬安县| 沂水县| 商丘市| 永安市| 河津市| 西城区| 合作市| 措美县| 龙山县| 固阳县| 辽宁省| 莱阳市| 高台县| 汶川县| 通河县| 长沙市| 泽普县| 荣成市| 小金县| 昌江| 大田县| 滕州市| 新干县| 灵宝市| 广汉市| 马山县|