博客專欄

        EEPW首頁 > 博客 > 阿里達摩院獲KDD 2022最佳論文,國內企業首次獲獎

        阿里達摩院獲KDD 2022最佳論文,國內企業首次獲獎

        發布人:機器之心 時間:2022-08-20 來源:工程師 發布文章

        8 月 18 日,全球數據挖掘領域頂級會議 KDD 2022 大獎公布,阿里巴巴達摩院團隊斬獲應用科學方向“最佳論文獎”,這是中國企業首次獲得該重磅獎項。

        圖片


        KDD(ACM SIGKDD)是數據挖掘領域歷史最悠久、規模最大的國際頂級學術會議,也是全球錄取率最低的計算機頂會之一,在知識發現、數據挖掘、人工智能等領域具有重大影響力。KDD 組委會對達摩院獲獎的聯邦圖學習開源工作 FederatedScope-GNN 給予充分肯定,評語提到,該工作“推動了聯邦圖學習技術的發展,并樹立了優秀平臺工作的榜樣”。

        圖片


        KDD會議分為研究和應用科學兩個方向,本年度共收到2448篇投稿,僅接受449篇。包括阿里巴巴、華為、騰訊、百度等多家中國科技企業均有論文被收錄,其中阿里巴巴今年共34篇論文入選,是全球入選論文數量最多的企業之一,同時阿里巴巴獨立獲得了大會應用科學方向唯一的“最佳論文獎”。歷年榮摘桂冠的包括來自谷歌、亞馬遜、卡內基梅隆大學等海外知名機構的研究團隊,國內企業此前從未獲得該獎。


        阿里巴巴達摩院獲獎論文《FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning》聚焦聯邦學習中應用廣泛且技術復雜的聯邦圖學習方向,針對現有框架及算法庫對圖數據支持有限的情況,提出了包含豐富數據集及創新算法的易用平臺,為該領域后續研究奠定堅實基礎。 

        圖片

        論文鏈接:https://arxiv.org/pdf/2204.05562.pdf

        今年以來,阿里巴巴達摩院在全球頂級學術會議上多次榮獲大獎,目前已斬獲 KDD 最佳論文、ACL 杰出論文、CVPR 最佳學生論文等獎項。
        值得注意的是,今年 5 月份,阿里巴巴達摩院發布新型聯邦學習框架 FederatedScope,通過事件驅動的編程范式構建聯邦學習,大幅降低了相關技術的開發部署難度。本次 KDD 獲獎工作即為該開源項目的一部分,其關注的對象是具有復雜鏈接關系的圖數據類型,在科學探索、知識表示、互聯網、金融等科研及工業領域均有廣闊應用需求。 

        圖片


        以下為達摩院作者團隊對 FederatedScope-GNN 工作的詳細解讀:
        聯邦圖學習在社交、金融、科研等領域前景廣闊
        圖(graph)是一種用于描述對象間關系的數據類型,在現實生活中無處不在。例如在互聯網領域,微博等社交網絡將每個用戶賬號視為節點(node/vertex),根據好友關系給節點連邊(edge);在金融領域,****將每個賬戶視為一個節點,將轉賬關系視為節點間的邊,即兩個節點間有邊表示對應的兩個賬戶間發生過轉賬;在自然科學領域,科學家有時候將分子描述為一個圖,其中節點象征原子,邊象征原子間的化學鍵;在知識表示領域,人們習慣于將實體表示為節點,兩個實體間存在關聯關系則對其建立連邊。
        根據場景不同,圖上的任務往往分為節點級別(node-level)、連接級別(link-level)和圖級別(graph-level)。例如****在反洗錢任務中需要預測每個賬戶是否是風險賬戶,即進行節點分類,這是一個典型的節點級別的任務;社交網絡中的好友推薦,是預測兩個節點之間是否存在連邊,所以是連接級別的任務;而分子屬性預測中,目標是預測每個分子圖的某種屬性,所以是圖級別的任務。
        在圖數據上的各種任務中,近年來興起的圖神經網絡(graph neural networks)得到學術界和工業界的廣泛關注并取得了顯著的成功。這些成功一方面得益于圖神經網絡強大的表示能力與泛化能力,同時也受益于上述各類現實場景中圖數據的收集與積累。作為一種數據驅動的機器學習方法,更充足的圖數據往往能引導圖神經網絡得到更優秀的性能。
        因此,各個機構往往具有強烈的意愿去基于各方的圖數據共同訓練圖神經網絡。例如,若干****共同訓練反洗錢模型往往能得到分類準確率更高的圖神經網絡(如圖一所示);多個研究機構希望能融合各自擁有的知識圖譜來更準確地補全缺失的知識;多家****企已經開始嘗試基于大家各自擁有的分子標注聯合訓練用于新****發現的圖神經網絡。  

        圖片

        圖一:****反洗錢場景
        然而,考慮到數據隱私保護和商業競爭等因素,機構之間不能直接把原始的數據集中起來進行模型訓練。如何在符合監管要求,即嚴格保護各方數據隱私的前提下進行合作,共同訓練圖神經網絡,成為了研究和應用的焦點。聯邦圖學習給出了一種可行的解法,即在 “數據可用而不可見” 的設定下,各方圖數據不出域而只交互模型參數等信息來進行合作式的模型訓練。
        現有聯邦學習框架及算法庫對圖數據支持有限
        近年來,在全社會對隱私保護日益重視的背景下,聯邦學習的研究和應用得到了長足發展。這一進步在很大程度上得益于聯邦學習框架(framework)及算法庫(package)的支持。這類基礎設施和開箱即用的模塊使得研究人員能夠專注于理論和算法的創新而不需要過度關心實現的細節,同時使得工程師能高效開發、仿真、部署,大大加快了聯邦學習在現實應用中的落地。具有代表性的聯邦學習框架包括 Google 公司的 TensorFlow Federated (TFF)、微眾****的 FATE 等。
        當前,這類框架對聯邦學習中各個參與方的通信、計算圖的描述和拆分調度、模型的部署與推理等一般性的基礎設施均有完整豐富的支持。但是,現有聯邦學習相關的框架和庫對圖聯邦的支持相對有限,框架中提供的現成圖數據集、圖神經網絡架構、專門針對圖學習設計的聯邦學習算法等也還不夠全面,難以基于這些已有工作去建立聯邦圖學習的基準。這導致當前流行的若干聯邦優化算法工作和廣泛采用的基準,如 LEAF,更多地關注視覺和自然語言領域的基準,但是尚缺少對圖神經網絡在圖數據上的性能評估。
        而且,針對圖數據的聯邦學習算法有別于常規算法簡單的聚合行為,對算法實現提出了更多要求。一方面是參與者間交換的數據更多種多樣,比如近期發表的 FedSage + 算法需要在參與者間交換節點的嵌入式表示以及一個關于鄰居特征的生成模型。同時,更多樣的信息交換導致各個參與者需要有更豐富的行為去處理收到的信息,例如 GCFL + 算法中 server 需要動態地對收集到的梯度進行聚類操作。現有框架大多以中心化的視角,讓開發者以聲明式的編程范式描述計算圖來表達算法流程。這種方式雖然適用于實現常規的聯邦學習算法(例如 FedAvg),卻對實現上述聯邦圖學習算法帶來了較高的開發門檻。
        在這個背景下,學術界和工業界都對一款功能全面且對實現聯邦圖學習算法友好的框架具有強烈需求。
        FederatedScope-GNN:為聯邦圖學習建立豐富基準
        為了更好地滿足上述需求,阿里巴巴達摩院智能計算實驗室提出并基于聯邦學習框架 FederatedScope 實現了針對圖學習的庫 FederatedScope-GNN,并以此工作形成了本次獲獎論文《FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning》。
        FederatedScope-GNN 針對圖學習提供了 DataZoo 和 ModelZoo,分別為用戶提供了豐富多樣的聯邦圖數據集和相應的模型與算法。DataZoo 既包含若干新引入的數據集,也實現了大量不同類型的 splitters,用于通過單機圖數據集來構造聯邦圖數據集。DataZoo 提供的大量數據集涵蓋了不同領域、不同任務類型、不同統計異質性的聯邦圖數據,大大方便了使用者對所關注算法進行全面的評估。
        ModelZoo 提供了豐富的圖神經網絡實現,既包含傳統的 GCN、GIN、GAT、GraphSage 等架構,也提供了最新的 GPRGNN 等拆分了特征變換與消息傳播的架構。同時,ModelZoo 也包含了像 FedSage + 和 GCFL + 這樣最新的聯邦圖學習算法的實現。其中,得益于底層框架事件驅動(event-driven)的編程范式,參與者間多樣的消息交換和參與者豐富的行為得以模塊化地進行拆分實現(如圖二所示)。ModelZoo 給研究人員復現相關工作以及建立新的基準帶來了更多便利。 

        圖片

        圖二:基于事件驅動的底層框架 FederatedScope 來實現聯邦圖學習算法 FedSage+。
        與此同時,針對聯邦圖學習對超參數敏感的現象,FederatedScope-GNN 還實現了模型調優 (model tuning) 相關的模塊,包括多保真度的 Successive Halving Algorithm 和新近提出的聯邦超參優化算法 FedEx,以及針對聯邦異質任務的個性化(如圖三所示,各個參與者被允許使用獨立的特有神經架構而只聚合學習共享部分)。考慮到諸如 FedSage + 這類聯邦圖學習算法交換節點嵌入式表示等信息的特點,FederatedScope-GNN 提供了豐富的隱私評估算法對算法在隱私保護方面的能力進行檢驗。 

        圖片

        圖三:一個個性化圖神經網絡的示例,其中各參與方僅共享模型的一部分參數。
        基于上述功能和特性,該獲獎論文建立了全面豐富的關于聯邦圖學習的基準,包含不同圖上任務、不同圖神經網絡架構、不同的聯邦優化算法等,為該領域后續的研究奠定了堅實基礎。同時,關于聯邦設定下對圖神經網絡訓練進行超參優化的實驗,展示了對不同保真度維度進行權衡的潛在優勢;關于個性化的實驗,展示了應對各參與方同配度差異的有效性。
        聯邦學習下圖數據補全值得關注
        FederatedScope-GNN 給相關領域的研究和應用帶來了極大的便利,其對應論文的獲獎不僅反映了各位相關專家學者對這一工作的肯定,同時也體現了學界對聯邦圖學習領域未來長足發展的期冀。
        一個值得指出且被廣泛注意的研究方向是在保護好各參與方隱私的前提下,關注各參與方如何對其圖數據進行補全,使得圖神經網絡能基于完整圖結構進行消息傳播。FederatedScope-GNN 所提供的功能和特性將支持研究與開發人員開展更多的相關研究、落地更多的實際應用。
        論文作者簡介
        第一作者
        王楨,阿里巴巴達摩院智能計算實驗室算法專家。2017 年博士畢業于中山大學數據科學與計算機學院,讀博期間以一作身份發表知識圖譜補全算法 TransH,單篇引用量超 2500 次。畢業后加入阿里巴巴,曾任阿里云高級算法工程師,專注于強化學習方向。在達摩院工作期間,致力于聯邦圖學習等領域前沿研究,多次在 KDD Cup 比賽中取得高排名成績,發表多篇國際頂級會議論文,并作為核心設計與開發人員參與開源 FederatedScope 平臺。

        圖片


        通訊作者
        李雅亮,阿里巴巴達摩院智能計算實驗室高級算法專家,2017 年于紐約州立大學布法羅分校計算機科學與工程系取得博士學位。研究領域包括數據融合、因果推斷、自動機器學習、隱私計算,研究成果發表于 KDD、ACL、SIGIR、NeurIPS、WWW、TKDE 等多個領域的頂尖國際會議與期刊。他擔任了 NeurIPS'21、NeurIPS'22、AAAI'22 的領域主席,在 IJCAI 和 NeurIPS 上三次組織 workshop,在 CIKM'22 上組織了 AnalytiCup 比賽,并在 KDD、AAAI 上多次做了 Tutorial。

        圖片


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        linux操作系統文章專題:linux操作系統詳解(linux不再難懂)


        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 福海县| 云南省| 得荣县| 柘荣县| 茌平县| 麦盖提县| 石楼县| 鹤山市| 方山县| 崇义县| 洪江市| 梧州市| 谢通门县| 玛纳斯县| 迁安市| 凤山市| 博野县| 吴堡县| 平和县| 页游| 陕西省| 洪湖市| 明溪县| 天峻县| 四会市| 临猗县| 衡阳县| 娱乐| 嫩江县| 湄潭县| 乌审旗| 新田县| 重庆市| 阿勒泰市| 柳河县| 宝山区| 福清市| 分宜县| 大冶市| 诸城市| 汝州市|