復旦大學:多模態知識圖譜最新綜述
以下文章來源于NewBeeNLP ,作者上杉翔二
本篇博文梳理一篇knowledge-based方向的文章,結合了多模態知識的多模態知識圖譜。來自復旦大學,先上路徑:
- Title:Multi-Modal Knowledge Graph Construction and Application: A Survey
- Link:https://arxiv.org/abs/2202.05786v1
知識圖譜到多模態知識圖譜
首先知識圖譜是一個以實體、概念為節點、以概念之間的各種語義關系為邊的大規模語義網絡。這種帶有知識的結構也被廣泛應用,但是,現有知識圖譜都以純文本的形式出現,卻沒有真實世界的連接。比如:
- 對抽象概念的理解。一個符號“dog”應該根植于物理世界,將其和真的狗之間建立聯系對理解這些抽象概念是有效的。作者同時也舉例了“Hand-in-waistcoat”等詞匯。
- 對特定任務的幫助。在關系提取任務中,額外的圖像會以在視覺上幫助區分屬性和關系,如partOf (鍵盤和屏幕是筆記本電腦的一部分),colorOf(香蕉通常是黃色或黃綠色,而無藍色的)。在文本生成任務中,可以幫助生成一個信息更豐富的實體級句子(例如特朗普正在發表演講),而不是一個模糊的概念級描述(例如一個金發高個子男人正在發表演講)。
因此多模態知識圖譜(Multi-Modal Knowledge Graph,MMKG)被逐漸矚目,這篇文章主要關注兩個話題:
- 構建(Construction)。MMKG的構建主要有兩種:一種是從圖像到符號(from images to symbols),即用KG表示符號來標注圖像;另一種是從符號到圖像( from symbols to images),即把KG中的符號對應到圖像。
- 應用(Application)。MMKG的應用也可以大致分為兩類,一類是In-MMKG應用,目的是解決MMKG本身的質量或集成問題;另一類是 Out-of-MMKG應用,作者指的是如果將MMKG應用到一般的多模態任務中。
多模態知識圖譜的好處
- MMKG提供了足夠的背景知識來豐富實體和概念的表示,特別是對于長尾問題,引入輔助的常識知識可以增強圖像和文本的表示能力。
- MMKG能夠理解圖像中不可見的物體。這主要是利用符號知識提供的在視覺上看不見物體的符號信息,或在看不見物體和看不見物體之間建立語義關系。
- MMKG支持多模態推理。在外部知識資源的幫助下,VQA任務的推理能力可以得到提升。
- MMKG通常提供多模態數據作為附加特性來彌補一些NLP任務中的信息差距。以實體識別為例,一個圖像可以提供足夠的信息來識別“Rocky”是一只狗的名字還是一個人的名字。
多模態知識圖譜構建
MMKG構建需要將普通KG中的符號知識(包括實體、概念、關系等)與圖像關聯起來。MMKG按類型可分為兩種,A-MMKG和N-MMKG。A即 attribute,將多模態數據如圖像作為實體或概念的特定屬性值,而N即entities,將多模態數據直接作為KGs中的實體。
下圖是兩種類型的主要predicate,如在A-MMKG中hasImage,N-MMKG的sameAs。
在構建上,上面也提到過的,主要有兩種方式
(1) from images to symbols,即在圖像上標注KG中的符號;(2) from symbols to images,即在圖像上標注KG中的對應符號。
下圖a是第一種靠 labeling images構建的方法,圖b是第二種 symbol grounding的構建方式的流行數據集們。
從圖像到符號:標注圖像(labeling images)
可以由人工標注的數據集來監督,讓人畫出邊界框并標注帶有給定標簽的圖像或圖像區域。也可搭建一個系統來做,比如分為三個子任務:視覺實體/概念提取、視覺關系提取和視覺事件提取。
- 視覺實體/概念提取的目的是檢測和定位圖像中的目標視覺對象,然后用KG中的實體/概念符號標記這些對象,目標檢測和視覺定位使用較多;
- 視覺關系提取的目的是識別圖像中檢測到的視覺實體/概念之間的語義關系,然后用KG中的關系對其進行標記,其中基于規則、統計或者更細粒度的方法較多;
- 事件提取任務的目的是預測事件類型。
從符號到圖像:符號定位( symbol grounding)
主要尋找合適的圖像來表示傳統KG中已經存在的符號。與圖像標注方式相比,這種方式在MMKG構建中更為廣泛,主要分為幾個過程:實體定位、概念定位和關系定位。
- 對于找實體圖像來說,基于百科或搜索是常見的方式
- 對于概念來說,該概念是否可以被可視化,和如何從大量圖片中選擇有代表性、多樣性的圖片是重要話題;
- 對于關系定位來說,圖文匹配或圖匹配會是比較好的選擇。
作者對這兩塊兒會遇到的挑戰和未來的優化機會做了詳細的探討,有興趣可以拜讀原文。與此同時,如何應用好這些已經被制作完善的MMKG也很重要。
多模態知識圖譜應用
應用任務主要分為in-KG和out-of-KG。In-MMKG應用是指在MMKG本身內進行的任務,如:鏈接預測Link Prediction,三元組分類Triple Classification,實體鏈接Entity Classification,實體對齊Entity Alignment等等。這些和KG中已經探討很多的任務,本篇博文就不再贅述太多。
Out-of-MMKG則是更為廣泛一些的下游任務,如多模態實體識別與鏈接Multi-modal Entity Recognition and Linking,視覺問答 Visual Question Answering,圖像文本匹配Image-Text Matching,多模態生成任務Multi-modal Generation Tasks,多模態推薦系統Multi-modal Recommender System。
- Multi-modal Entity Recognition and Linking。圖像可以為實體識別提供必要的互補信息。主要通過兩種方式利用MMKG中的圖像知識:1)提供實體應該鏈接的目標實體;2)學習每個多模態數據的分布式表示,然后用它來度量相關性。
- Visual Question Answering。MMKG可以提供關于問題實體及其在圖像中的關系的知識,從而帶來更深層次的視覺內容理解,同時MMKG中的結構化符號知識都可以為進行推理過程和預測最終答案的一種更明確的方式。
- Image-Text Matching。MMKG可以利用多模態實體之間的關系來擴展更多的視覺和語義概念。此外MMKG還可以幫助構建場景圖,引入視覺概念之間的信息相關知識,進一步增強圖像表示。
- Multi-modal Generation Tasks。包括 image tagging, image captioning, visual storytelling都算,MMKG中的概念知識可以極大地提高圖像的表示能力,在解決歧義、看不見的物體、詞匯量等方面都表現強大。
- Multi-modal Recommender System。利用外部MMKG來獲得具有豐富語義的item表示,甚至個性化的表示都完全可以,這一點在KG in Recommendation就很有效,擴展到多模態形式或許能進一步增強效果。
多模態知識圖譜開放問題
作者主要提了以下未來的開放性問題:
- 復雜符號知識定位(Grounding Complex Symbolic Knowledge Grounding)。即除了實體、概念和關系的基礎之外,一些下游應用還需要復雜的符號知識的基礎,如KG中的一條路徑、一個子圖等涉及到多重關系。且在許多情況下,多重關系的復合語義是隱式表達的且可能隨著時間而改變。
- 質量控制(Quality Control)。大規模的MMKG可能存在錯誤、缺少事實或過時的事實,因此精度、完整性、一致性和新鮮度,圖像質量等可能都需要被討論。
- 效率(Efficiency)。MMKG的構造效率問題較大,如NEIL需要大約350K CPU hours來為2273個對象收集400K的可視化實例,而在一個典型的KG中,這個數量會變成數十億個實例。而如果繼續擴展到視頻數據,這個擴展性問題會繼續被放大。除了MMKG的構建,MMKG的在線應用的要求也會更高。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。