博客專欄

        EEPW首頁 > 博客 > 大規(guī)模開放數(shù)字商業(yè)知識圖譜評測基準來了:OpenBG上線天池

        大規(guī)模開放數(shù)字商業(yè)知識圖譜評測基準來了:OpenBG上線天池

        發(fā)布人:機器之心 時間:2022-11-19 來源:工程師 發(fā)布文章
        在數(shù)字商業(yè)領(lǐng)域,知識圖譜業(yè)務(wù)的蓬勃發(fā)展在許多應(yīng)用顯示出了巨大的潛力,但它仍面臨著諸多挑戰(zhàn)。由阿里巴巴藏經(jīng)閣團隊和浙江大學(xué)開放的數(shù)字商業(yè)知識圖譜評測基準 OpenBG 提供了豐富的數(shù)字商業(yè)領(lǐng)域知識圖譜的評測數(shù)據(jù)集,覆蓋基于知識圖譜的商品顯著性推理、商品同款挖掘、商品知識圖譜鏈接預(yù)測等任務(wù),對模型展開了全方位評測,旨在幫助算法人員對模型取得更好的理解。


        圖片


        近年來,知識圖譜受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注,在教育、生物醫(yī)學(xué)、金融等領(lǐng)域得到了廣泛的應(yīng)用,凸顯了結(jié)構(gòu)化知識在智能應(yīng)用中的重要作用。2020 年圖靈獎得主 LeCun、Bengio 和 Hinton 在 2015 年《Nature》論文[1]曾指出:融合表示學(xué)習(xí)與復(fù)雜知識推理是人工智能進步的階梯。在數(shù)字商業(yè)領(lǐng)域,知識圖譜業(yè)務(wù)的蓬勃發(fā)展在許多應(yīng)用顯示出了巨大的潛力,但它仍面臨著諸多挑戰(zhàn)。例如,現(xiàn)有的商業(yè)知識圖譜往往存在大量的缺失屬性、實體節(jié)點和大量相同的未對齊的實體節(jié)點,且知識圖譜通常由多種模態(tài)構(gòu)成,因而如何對大規(guī)模數(shù)字知識圖譜進行鏈接預(yù)測和實體對齊(同款商品挖掘)面臨嚴峻挑戰(zhàn);此外,現(xiàn)有的知識圖譜通常缺乏對知識顯著性的建模,如當(dāng)用戶在電商平臺搜索 “跑步”關(guān)鍵詞 時,“瓶裝水”一般不是用戶真實的購物意圖,用戶關(guān)注的商品一般是 “跑步鞋、跑步機” 等健身用品。顯著的常識可以幫助搜索引擎有更好的理解能力,從而返回更貼合用戶需要的商品,因此如何基于數(shù)字商業(yè)知識圖譜進行商品顯著性推理也面臨巨大挑戰(zhàn)。


        由阿里巴巴藏經(jīng)閣團隊和浙江大學(xué)開放的數(shù)字商業(yè)知識圖譜評測基準 OpenBG Benchmark 提供了在數(shù)字商業(yè)領(lǐng)域知識圖譜的評測數(shù)據(jù)集,覆蓋基于知識圖譜的商品顯著性推理、商品同款挖掘、電商知識圖譜鏈接預(yù)測等任務(wù),對模型展開了全方位的評測,旨在幫助科研和算法人員對模型取得更好的理解。


        OpenBG Benchmark 介紹


        OpenBG Benchmark 是一個大規(guī)模開放數(shù)字商業(yè)知識圖譜評測基準,包含多個子數(shù)據(jù)集任務(wù)。數(shù)據(jù)集以開放的數(shù)字商業(yè)知識圖譜 OpenBG[2]為基礎(chǔ)構(gòu)建,OpenBG 是開放的數(shù)字商業(yè)知識圖譜,是一個使用統(tǒng)一 Schema 組織、涵蓋產(chǎn)品和消費需求的百萬級多模態(tài)數(shù)據(jù)集。OpenBG 由阿里巴巴藏經(jīng)閣團隊和浙江大學(xué)提供,開放的目標是利用開放的商業(yè)知識發(fā)現(xiàn)社會經(jīng)濟的價值,促進數(shù)字商務(wù)數(shù)字經(jīng)濟等領(lǐng)域的交叉學(xué)科研究,服務(wù)數(shù)字經(jīng)濟健康發(fā)展的國家戰(zhàn)略需求。首期開放包含以下三大類任務(wù):


        商品常識知識顯著性推理


        • 任務(wù)描述


        常識知識是被社會廣泛承認的對同一事物普遍存在的日常共識。在電商場景中,顯著性常識基于背后的知識體系,能為不同的用戶推薦合適的商品,對用戶體驗和購物效率有重要的意義?,F(xiàn)有的常識分類方法往往只注重評判常識是否合理,如 "跑步需要喝水"、"出差需要背包"。但當(dāng)在電商平臺搜索 "跑步" 時,瓶裝水一般不是用戶真實的購物意圖,用戶關(guān)注的商品一般是 “跑步鞋”、“跑步機” 等健身用品;在搜索 "出差" 時,“背包”一般并不是用戶需要的商品,但 “旅行箱” 可能是符合用戶意圖的商品。顯著的常識可以幫助搜索引擎有更好的理解能力,從而返回更貼合用戶需要的商品。


        • 任務(wù)說明


        本任務(wù)要求對電商常識三元組的顯著性進行判斷,即給定常識三元組(S,P,O),輸出其顯著性分類標簽,如下表所示,其中 1 表示顯著,0 表示不顯著。


        圖片

        商品同款挖掘


        • 任務(wù)描述


        同款商品是指商品的重要屬性完全相同且客觀可比的商品,商品同款識別的主要目的是從海量結(jié)構(gòu)化和無結(jié)構(gòu)化的商品圖文數(shù)據(jù)庫中匹配得到同款商品,是構(gòu)建電商產(chǎn)品關(guān)系的重要環(huán)節(jié)。商品同款作為商品知識圖譜的重要組成部分,有很多應(yīng)用場景,如同款商品發(fā)現(xiàn)等。


        • 任務(wù)說明


        我們將商品同款識別任務(wù)定義為二分類任務(wù),即給定商品對信息,判斷商品 item 是否同款,示例如下:


        圖片


        商品關(guān)系推理與鏈接預(yù)測


        • 任務(wù)描述


        由于知識圖譜普遍存在不完整的問題,因此需要關(guān)系推理與鏈接預(yù)測技術(shù)對缺失的圖譜節(jié)點進行預(yù)測。本任務(wù)旨在提升數(shù)字商業(yè)場景下知識圖譜嵌入效果,滿足商品推薦等應(yīng)用對推理商品潛在關(guān)聯(lián)性的需求。


        • 任務(wù)說明


        知識圖譜一般通過三元組(h,r,t)的形式組織數(shù)據(jù),其中 h 被稱為頭實體,t 為尾實體,r 為連接頭、尾實體的關(guān)系。如下圖所示(“化妝棉”,“品牌”,“屈臣氏”)就是一個圖譜三元組。知識圖譜的鏈接預(yù)測任務(wù)指的是已知頭實體(或尾實體)和關(guān)系的情況下,預(yù)測缺失的尾實體(或頭實體)。下圖中,(“化妝棉”,“適用群體”,?)就是一個鏈接預(yù)測任務(wù),需要預(yù)測出尾實體。


        圖片

        • 數(shù)據(jù)集


        與商品常識顯著性推理以及同款挖掘任務(wù)不同的是,鏈接預(yù)測任務(wù)由 3 個子任務(wù)數(shù)據(jù)集組成:OpenBG500、OpenBG500-L 和 OpenBG-IMG。其中 OpenBG500 包含 500 類關(guān)系,含百萬級別規(guī)模的圖譜數(shù)據(jù);OpenBG500-L 在 OpenBG500 的基礎(chǔ)上擴大了數(shù)據(jù)規(guī)模,含千萬級別規(guī)模的圖譜數(shù)據(jù),是電子商務(wù)領(lǐng)域大規(guī)模的知識圖譜;OpenBG-IMG 是電商領(lǐng)域的多模態(tài)知識圖譜。3 個數(shù)據(jù)集均以 OpenBG 為基礎(chǔ)構(gòu)建,構(gòu)建流程如下:


        圖片

        OpenBG Benchmark 挑戰(zhàn)榜


        OpenBG Benchmark 的提出旨在解決當(dāng)前數(shù)字商業(yè)領(lǐng)域知識圖譜數(shù)據(jù)集相對匱乏的問題,為算法和科研人員提供評測基準去衡量算法模型的有效性。基于 OpenBG Benchmark 阿里巴巴藏經(jīng)閣團隊曾在 CCKS2022 大會成功組織了學(xué)術(shù)評測比賽,吸引了 3000 多支隊伍報名參賽。目前 OpenBG Benchmark 已經(jīng)在阿里云天池平臺長期開放,感興趣的研究者們可以訪問如下鏈接參與挑戰(zhàn),平臺會在每個月的月底評出榜單 Top5 選手,并贈予天池定制禮品! 


        挑戰(zhàn)榜地址:https://tianchi.aliyun.com/dataset/122271


        官方也提供了基線代碼供算法人員參考: https://github.com/OpenBGBenchmark


        OpenBG 參考論文如下:

        • Qu, Yincen, et al. "Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in E-commerce." Findings of EMNLP 2022.

        • Xie, Xin, et al. "From Discrimination to Generation: Knowledge Graph Completion with Generative Transformer." WWW 2022 (Poster).

        • Deng, Shumin, et al. "Construction and Applications of Billion-Scale Multimodal Pre-trained Business Knowledge Graph." arXiv preprint arXiv:2209.15214  2022.


        引用:

        [1] https://www.nature.com/articles/nature14539

        [2] https://kg.alibaba.com



        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

        離子色譜儀相關(guān)文章:離子色譜儀原理


        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 师宗县| 子洲县| 遂昌县| 龙南县| 广州市| 东乌珠穆沁旗| 五河县| 南平市| 柳河县| 海阳市| 永寿县| 喀什市| 沁源县| 延寿县| 东宁县| 宜黄县| 潜山县| 绍兴县| 沁源县| 尖扎县| 阆中市| 宜阳县| 郓城县| 岫岩| 娄底市| 隆安县| 寿阳县| 阳春市| 舒兰市| 眉山市| 巴林左旗| 新闻| 文成县| 永城市| 通道| 临城县| 双城市| 巴南区| 六枝特区| 旬阳县| 万全县|