【NAACL2021】Graph4NLP:圖深度學習自然語言處理
來源:專知
深度學習已經成為自然語言處理(NLP)研究的主導方法,特別是在大規模語料庫中。在自然語言處理任務中,句子通常被認為是一系列標記。因此,流行的深度學習技術如循環神經網絡(RNN)和卷積神經網絡(CNN)在文本序列建模中得到了廣泛的應用。
然而,有大量的自然語言處理問題可以用圖結構來最好地表達。例如,序列數據中的結構和語義信息(例如,各種語法分析樹(如依賴分析樹)和語義分析圖(如抽象意義表示圖))可以通過合并特定任務的知識來擴充原始序列數據。因此,這些圖結構化數據可以對實體標記之間的復雜成對關系進行編碼,以學習更多的信息表示。然而,眾所周知,深度學習技術對歐幾里德數據(如圖像)或序列數據(如文本)具有破壞性,但不能立即適用于圖結構數據。因此,這一差距推動了對圖的深度學習的研究,特別是圖神經網絡(GNN)的發展。
這種在圖的深度學習和自然語言處理的交叉領域的研究浪潮影響了各種自然語言處理任務。應用/開發各種類型的GNN的興趣激增,并在許多自然語言處理任務中取得了相當大的成功,從分類任務如句子分類、語義角色標注和關系提取,到生成任務如機器翻譯、問題生成和摘要。
盡管取得了這些成功,NLP的圖深度學習仍然面臨許多挑戰,包括自動將原始文本序列數據轉換為高度圖結構的數據,以及有效地建模復雜數據,包括基于圖的輸入和其他高度結構化的輸出數據 (如序列、樹、并在節點和邊均具有多種類型的圖數據。本教程將涵蓋在NLP中運用深度學習圖技術的相關和有趣的主題,包括NLP的自動圖構造、NLP的圖表示學習、NLP的高級基于GNN的模型(例如graph2seq、graph2tree和graph2graph),以及GNN在各種NLP任務中的應用 (例如:機器翻譯、自然語言生成、信息提取和語義解析)。此外,還將包括動手演示課程,以幫助觀眾獲得應用GNN解決具有挑戰性的NLP問題的實際經驗,使用我們最近開發的開源庫——Graph4NLP,這是第一個為研究人員和從業者提供的庫,用于輕松地使用GNN解決各種NLP任務。
Graph4NLP 239頁slides的教程:
地址:https://github.com/graph4ai/graph4nlp
Graph4NLP:圖深度學習自然語言處理工具包
來自京東硅谷研發中心的首席科學家吳凌飛博士領導的 Graph4AI 團隊開發了首個面向NLP的圖深度學習工具包:Graph4NLP: Deep Learning on Graphs for Natural Language Processing 。
目前Graph4NLP的包是建立在DGL基礎上,關鍵模塊包含了文本轉圖結構模塊(Graph Construction),、圖學習模塊 (Graph Representation Learning)、預測模塊 (Prediction)、評估模塊 (Evaluation) 和損失函數模塊 (Loss)。
Graph4NLP由四個不同的層組成:
1、數據層;2、模塊層;3、模型層;4、應用層。
圖注:Graph4NLP 整體架構
Graph4NLP 計算流如下所示:
Graph4NLP模型和應用
模型
Graph2Seq: 一個通用的端到端神經編碼——解碼模型,可以映射一個輸入圖到一個序列token;
Graph2Tree: 一個通用的端到端神經編碼——解碼模型,可以映射一個輸入圖到一個樹結構
應用
本項目提出了一個復雜的NLP應用集合,并附帶了詳細的案例:
文本分類:把句子或文檔分類為適當的標簽;
語義解析:把自然語言翻譯成機器可解釋的形式意義表示。
神經機器翻譯:把源語言中的句子翻譯成不同的目標語言。
摘要:生成輸入文本的更簡短版本,并保留主要含義。
知識圖譜補全:預測知識圖譜中兩個現有實體之間的缺失關系。
數學問題解決:自動解決數學習題,用易懂的語言提供問題的背景信息。
命名實體識別:對輸入文本中的實體進行相應類型的標記。
問題生成:根據給定的段落和目標答案(可選)生成有效且流暢的問題。
論文鏈接:
https://www.aclweb.org/anthology/2021.naacl-tutorials.3.pdf
Graph4NLP文獻綜述:
https://github.com/graph4ai/graph4nlp_literature
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
p2p機相關文章:p2p原理