博客專欄

        EEPW首頁 > 博客 > 大規模開放數字商業知識圖譜評測基準來了:OpenBG上線天池

        大規模開放數字商業知識圖譜評測基準來了:OpenBG上線天池

        發布人:機器之心 時間:2022-11-19 來源:工程師 發布文章
        在數字商業領域,知識圖譜業務的蓬勃發展在許多應用顯示出了巨大的潛力,但它仍面臨著諸多挑戰。由阿里巴巴藏經閣團隊和浙江大學開放的數字商業知識圖譜評測基準 OpenBG 提供了豐富的數字商業領域知識圖譜的評測數據集,覆蓋基于知識圖譜的商品顯著性推理、商品同款挖掘、商品知識圖譜鏈接預測等任務,對模型展開了全方位評測,旨在幫助算法人員對模型取得更好的理解。


        圖片


        近年來,知識圖譜受到學術界和產業界的廣泛關注,在教育、生物醫學、金融等領域得到了廣泛的應用,凸顯了結構化知識在智能應用中的重要作用。2020 年圖靈獎得主 LeCun、Bengio 和 Hinton 在 2015 年《Nature》論文[1]曾指出:融合表示學習與復雜知識推理是人工智能進步的階梯。在數字商業領域,知識圖譜業務的蓬勃發展在許多應用顯示出了巨大的潛力,但它仍面臨著諸多挑戰。例如,現有的商業知識圖譜往往存在大量的缺失屬性、實體節點和大量相同的未對齊的實體節點,且知識圖譜通常由多種模態構成,因而如何對大規模數字知識圖譜進行鏈接預測和實體對齊(同款商品挖掘)面臨嚴峻挑戰;此外,現有的知識圖譜通常缺乏對知識顯著性的建模,如當用戶在電商平臺搜索 “跑步”關鍵詞 時,“瓶裝水”一般不是用戶真實的購物意圖,用戶關注的商品一般是 “跑步鞋、跑步機” 等健身用品。顯著的常識可以幫助搜索引擎有更好的理解能力,從而返回更貼合用戶需要的商品,因此如何基于數字商業知識圖譜進行商品顯著性推理也面臨巨大挑戰。


        由阿里巴巴藏經閣團隊和浙江大學開放的數字商業知識圖譜評測基準 OpenBG Benchmark 提供了在數字商業領域知識圖譜的評測數據集,覆蓋基于知識圖譜的商品顯著性推理、商品同款挖掘、電商知識圖譜鏈接預測等任務,對模型展開了全方位的評測,旨在幫助科研和算法人員對模型取得更好的理解。


        OpenBG Benchmark 介紹


        OpenBG Benchmark 是一個大規模開放數字商業知識圖譜評測基準,包含多個子數據集任務。數據集以開放的數字商業知識圖譜 OpenBG[2]為基礎構建,OpenBG 是開放的數字商業知識圖譜,是一個使用統一 Schema 組織、涵蓋產品和消費需求的百萬級多模態數據集。OpenBG 由阿里巴巴藏經閣團隊和浙江大學提供,開放的目標是利用開放的商業知識發現社會經濟的價值,促進數字商務數字經濟等領域的交叉學科研究,服務數字經濟健康發展的國家戰略需求。首期開放包含以下三大類任務:


        商品常識知識顯著性推理


        • 任務描述


        常識知識是被社會廣泛承認的對同一事物普遍存在的日常共識。在電商場景中,顯著性常識基于背后的知識體系,能為不同的用戶推薦合適的商品,對用戶體驗和購物效率有重要的意義。現有的常識分類方法往往只注重評判常識是否合理,如 "跑步需要喝水"、"出差需要背包"。但當在電商平臺搜索 "跑步" 時,瓶裝水一般不是用戶真實的購物意圖,用戶關注的商品一般是 “跑步鞋”、“跑步機” 等健身用品;在搜索 "出差" 時,“背包”一般并不是用戶需要的商品,但 “旅行箱” 可能是符合用戶意圖的商品。顯著的常識可以幫助搜索引擎有更好的理解能力,從而返回更貼合用戶需要的商品。


        • 任務說明


        本任務要求對電商常識三元組的顯著性進行判斷,即給定常識三元組(S,P,O),輸出其顯著性分類標簽,如下表所示,其中 1 表示顯著,0 表示不顯著。


        圖片

        商品同款挖掘


        • 任務描述


        同款商品是指商品的重要屬性完全相同且客觀可比的商品,商品同款識別的主要目的是從海量結構化和無結構化的商品圖文數據庫中匹配得到同款商品,是構建電商產品關系的重要環節。商品同款作為商品知識圖譜的重要組成部分,有很多應用場景,如同款商品發現等。


        • 任務說明


        我們將商品同款識別任務定義為二分類任務,即給定商品對信息,判斷商品 item 是否同款,示例如下:


        圖片


        商品關系推理與鏈接預測


        • 任務描述


        由于知識圖譜普遍存在不完整的問題,因此需要關系推理與鏈接預測技術對缺失的圖譜節點進行預測。本任務旨在提升數字商業場景下知識圖譜嵌入效果,滿足商品推薦等應用對推理商品潛在關聯性的需求。


        • 任務說明


        知識圖譜一般通過三元組(h,r,t)的形式組織數據,其中 h 被稱為頭實體,t 為尾實體,r 為連接頭、尾實體的關系。如下圖所示(“化妝棉”,“品牌”,“屈臣氏”)就是一個圖譜三元組。知識圖譜的鏈接預測任務指的是已知頭實體(或尾實體)和關系的情況下,預測缺失的尾實體(或頭實體)。下圖中,(“化妝棉”,“適用群體”,?)就是一個鏈接預測任務,需要預測出尾實體。


        圖片

        • 數據集


        與商品常識顯著性推理以及同款挖掘任務不同的是,鏈接預測任務由 3 個子任務數據集組成:OpenBG500、OpenBG500-L 和 OpenBG-IMG。其中 OpenBG500 包含 500 類關系,含百萬級別規模的圖譜數據;OpenBG500-L 在 OpenBG500 的基礎上擴大了數據規模,含千萬級別規模的圖譜數據,是電子商務領域大規模的知識圖譜;OpenBG-IMG 是電商領域的多模態知識圖譜。3 個數據集均以 OpenBG 為基礎構建,構建流程如下:


        圖片

        OpenBG Benchmark 挑戰榜


        OpenBG Benchmark 的提出旨在解決當前數字商業領域知識圖譜數據集相對匱乏的問題,為算法和科研人員提供評測基準去衡量算法模型的有效性。基于 OpenBG Benchmark 阿里巴巴藏經閣團隊曾在 CCKS2022 大會成功組織了學術評測比賽,吸引了 3000 多支隊伍報名參賽。目前 OpenBG Benchmark 已經在阿里云天池平臺長期開放,感興趣的研究者們可以訪問如下鏈接參與挑戰,平臺會在每個月的月底評出榜單 Top5 選手,并贈予天池定制禮品! 


        挑戰榜地址:https://tianchi.aliyun.com/dataset/122271


        官方也提供了基線代碼供算法人員參考: https://github.com/OpenBGBenchmark


        OpenBG 參考論文如下:

        • Qu, Yincen, et al. "Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in E-commerce." Findings of EMNLP 2022.

        • Xie, Xin, et al. "From Discrimination to Generation: Knowledge Graph Completion with Generative Transformer." WWW 2022 (Poster).

        • Deng, Shumin, et al. "Construction and Applications of Billion-Scale Multimodal Pre-trained Business Knowledge Graph." arXiv preprint arXiv:2209.15214  2022.


        引用:

        [1] https://www.nature.com/articles/nature14539

        [2] https://kg.alibaba.com



        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        離子色譜儀相關文章:離子色譜儀原理


        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 台东市| 蒙山县| 扶绥县| 安宁市| 电白县| 敖汉旗| 兖州市| 犍为县| 轮台县| 花莲市| 西乌珠穆沁旗| 广河县| 嘉峪关市| 吉木萨尔县| 桃园市| 竹北市| 陆河县| 潍坊市| 鄯善县| 金沙县| 永福县| 滦平县| 象州县| 东港市| 邵东县| 闻喜县| 砚山县| 大化| 建宁县| 宣恩县| 白银市| 抚顺市| 农安县| 永定县| 灌云县| 驻马店市| 大新县| 资溪县| 南城县| 涞源县| 精河县|