西電NeurIPS 2022 | 基于結構聚類的異質圖自監督學習
論文作者:楊亞明,管子玉,王哲,趙偉,徐偲,陸維港,黃健斌
論文單位:西安電子科技大學,計算機科學與技術學院
1. 引言
現階段,圖(Graph)上的自監督學習大多都遵循圖對比學習框架,這些方法通常需要先構造一系列的正樣本對以及負樣本對,然后通過在低維表示空間中拉近正樣本并且推遠負樣本來學習節點/圖的表示。目前,研究者們已經探索了節點丟棄、連邊擾動等各種生成正樣本的策略,以及特征打亂、批次采樣等各種生成負樣本的策略。然而,已有研究工作表明,這些正、負樣本的生成策略是數據集敏感的。例如,GraphCL通過系統性的研究發現連邊擾動對社交網絡比較有益,但是對生物化學網絡可能有負面作用。
InfoGCL發現負樣本對于更稀疏的圖可能更有益。因此,在實踐中,研究者們需要根據數據集以及手頭任務的實際情況來探索、尋找合適的構造正、負樣本的策略,這限制了已有方法的靈活性與泛化性。為了有效地應對這個問題,在本項研究中,我們提出一個基于結構聚類的異質圖自監督學習方法SHGP,它無需任何正樣本或者負樣本。
圖1 模型整體架構圖。
我們的主要思路是通過對異質圖執行結構聚類來產生聚類標簽,并利用聚類標簽來監督異質圖神經網絡的訓練。如圖1中的模型架構圖所示,SHGP主要包括兩個模塊,Att-HGNN模塊可以被實現為任何基于注意力聚合機制的異質圖神經網絡(我們采用ie-HGCN模型,請參考原文https://mp.weixin.qq.com/s/oSWHzbpp54W9Ar_zE8ipjQ),它的作用是計算節點的表示:
Att-LPA模塊將經典的標簽傳播算法LPA以及Att-HGNN中的注意力聚合機制進行了有機的結合,它的作用是在異質圖上執行結構聚類,并將得到的聚類標簽當做偽標簽:
這兩個模塊共享相同的注意力聚合機制,即,Att-HGNN和Att-LPA在每一次前向過程中都執行相同的注意力聚合,區別是Att-HGNN聚合的是(投影后的)特征,而Att-LPA聚合的是上一輪產生的偽標簽,兩者都有著完全相同的注意力聚合系數。我們在Att-HGNN的頂層構建一個softmax分類器,并將節點表示輸入到其中來預測節點標簽。模型的損失為節點預測與節點偽標簽之間的交叉熵:
計算得到損失以后,我們利用梯度下降來優化所有的模型參數:
隨著優化過程的進行,模型會學習到越來越好的注意力分布(包括其他參數)。更好的注意力分布則會在下一輪迭代中促進Att-HGNN和Att-LPA分別產生更好的節點嵌入(以及預測)和偽標簽,進而促進模型學習得到更好的參數。這樣,兩個模塊可以緊密地相互作用,并相互增強對方,最終使得模型學習得到具有判別性的節點表示。
我們對節點的預訓練表示進行聚類。在每個數據集上,我們利用
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。