一文 Get 汽車知識的語義網絡及圖譜構建(2)
問題1:單個領域內,?檔內容和格式多樣,需要?量的標注數據,成本?。問題2:領域之間遷移的效果不夠好,跨領域的可規模化拓展的代價?。關鍵點:模型基本都是針對特定?業特定場景,換?個場景,效果會出現明顯下降。解決思路:Pre-train + Finetune的范式。預訓練:重量級底座讓模型“?多識?”,充分利??規模多?業的?標?檔,訓練?個統?的預訓練底座,增強模型對各類?檔的表示和理解能?;微調:輕量級?檔結構化算法。在預訓練基礎上,構建輕量級的?向?檔結構化的算法,降低標注成本。基于??本的預訓練?法,大多都沒有考慮?檔特性,如空間(Spartial)、視覺(Visual)等信息。并且基于?本設計的PretrainTask,整體是針對純?本進?的設計,?沒有針對?檔的邏輯結構設計。針對該問題這里介紹一種??檔預訓練模型DocBert[3],DocBert模型設計。使??規模(百萬級)?標注?檔數據進?預訓練,基于?檔的?本語義(Text)、版?信息(Layout)、視覺特征(Visual)構建?監督學習任務,使模型更好地理解?檔語義和結構信息。Layout-Aware MLM:在Mask語?模型中考慮?本的位置、字體??信息,實現?檔布局感知的語義理解。Text-Image Alignment:融合?檔視覺特征,重建圖像中被Mask的?字,幫助模型學習?本、版?、圖像不同模態間的對?關系。Title Permutation:以?監督的?式構建標題重建任務,增強模型對?檔邏輯結構的理解能?。Sparse Transformer Layers:?Sparse Attention的?法,增強模型對??檔的處理能力(見下圖)。挖掘概念,興趣詞標簽,關聯到車系、實體除了結構化和非結構化文本中獲取三元組,我們還挖掘物料所包含的分類、概念標簽和興趣關鍵詞標簽,并建立物料和車實體之間的關聯,為汽車知識圖譜帶來新的知識。下面從分類、概念標簽、興趣詞標簽來介紹汽車之家所做的內容理解部分工作以及思考。分類體系作為內容刻畫的基礎,對物料進行粗粒度的劃分。基于人工定義的方式建立統一的內容體系,通過AI模型進行進一步劃分。在分類方法上,我們采用了主動學習的方式,對比較難分的數據進行標注,同時采用數據增強、對抗訓練,以及關鍵詞融合等方法提高分類的效果,分類算法流程見下圖。
概念標簽粒度介于分類和興趣詞標簽之間,比分類粒度更細,同時比興趣詞對于興趣點刻畫更加完整。我們建立了車視野、人視野、內容視野三個維度,豐富了標簽維度,細化了標簽粒度。豐富且具體的物料標簽,更加方便搜索推薦基于標簽的模型優化,且可用于標簽外展起到吸引用戶及二次引流等作用。概念標簽的挖掘,結合在query等重要數據上采用機器挖掘的方式,對概括性進行分析,通過人工review,拿到概念標簽集合,采用多標簽模型分類。
興趣詞標簽是最細粒度的標簽,映射為用戶興趣,根據不同用戶興趣偏好可以更好的進行個性化推薦。關鍵詞的挖掘采用多種興趣詞挖掘相結合的方式,包括Keybert提取關鍵子串,并結合TextRank、PositionRank、singlerank、TopicRank、MultipartiteRank等句法分析多種方法,產生興趣詞候選。最后,通過聚類+人工的方式生成最終版高質量興趣標簽。
對于不同粒度的標簽還是在物料層面,我們需要把標簽和車建立起關聯。首先,我們分別計算出標題\文章的所屬標簽,然后識別出標題\文章內的實體,得到若干標簽—實體偽標簽,最后根據大量語料,共現概率高的標簽就會標記為該實體的標簽。通過以上三個任務,我們獲得了豐富且海量的標簽。對車系、實體關聯上這些標簽,會極大豐富我們的汽車圖譜,建立了媒體和用戶的關注車標簽。人效提升為了實現更好的模型效果,獲得更大規模的訓練樣本,解決標注成本高和標注周期長成為亟待解決的問題。首先,我們使用半監督學習,利用海量未標注數據進行預訓練。之后采用主動學習方式,最大化標注數據的價值,迭代選擇高信息量樣本進行標注。最后利用遠程監督,發揮已有知識的價值,發覺任務之間的相關性。知識入庫知識圖譜中的知識是通過RDF結構來進行表示的,其基本單元是事實。每個事實是一個三元組(S, P, O),在實際系統中,按照存儲方式的不同,知識圖譜的存儲可以分為基于RDF表結構的存儲和基于屬性圖結構的存儲。圖庫更多是采用屬性圖結構的存儲,常見的存儲系統有Neo4j、JanusGraph、OritentDB、InfoGrid等。圖數據庫選擇通過 JanusGraph[4] 與 Neo4J、ArangoDB、OrientDB 這幾種主流圖數據庫的對比,我們最終選擇JanusGraph 作為項目的圖數據庫,之所以選擇 JanusGraph,主要有以下原因:
基于 Apache 2 許可協議開放源碼,開放性好;
支持使用 Hadoop 框架進行全局圖分析和批量圖處理;
支持很大的并發事務處理和圖操作處理。通過添加機器橫向擴展 JanusGraph 的事務 處理能力,可以完成毫秒級別相應和大圖的復雜查詢;
原生支持 Apache TinkerPop 描述的當前流行的屬性圖數據模型;
原生支持圖遍歷語言 Gremlin。
下圖是主流圖數據庫對比。JanusGraph數據存儲模型了解Janusgraph存儲數據的方式,有助于我們更好的利用該圖庫。JanusGraph 以鄰接列表格式存儲圖形,這意味著圖形存儲為頂點及其鄰接列表的集合。頂點的鄰接列表包含頂點的所有入射邊(和屬性)。
JanusGraph 將每個鄰接列表作為一行存儲在底層存儲后端中。(64 位)頂點 ID(JanusGraph 唯一分配給每個頂點)是指向包含頂點鄰接列表的行的鍵。每個邊和屬性都存儲為行中的一個單獨的單元格,允許有效的插入和刪除。因此,特定存儲后端中每行允許的最大單元數也是 JanusGraph 可以針對該后端支持的頂點的最大度數。如果存儲后端支持 key-order,則鄰接表將按頂點 id 排序,JanusGraph 可以分配頂點 id,以便對圖進行有效分區。分配 id 使得經常共同訪問的頂點具有絕對差異小的 id。知識圖譜在推薦中的應用汽車領域擁有專業參數劃分和多領域技術,同時延伸到社會、科技、娛樂等多個方面,知識圖譜在汽車推薦中提供了內容之外豐富的知識信息,在推薦中起到了十分重要的作用,在汽車的看、買、用等不同場景都能帶來明顯的效果提升。在看車場景中,低頻用戶對應的點擊行為少,可能導致內容推薦效果差等問題,此時可通過圖譜引入額外信息(相似用戶群組、車系屬性標簽等),使用跨域知識增強改善數據稀疏性問題。在買車場景中,通過顯式的知識展示、路徑召回,以及解釋理由生成,直觀地告訴用戶推薦他某款車的理由,以及召回對應的汽車類資訊。在用車場景中,通過用戶的看車及購買行為,從汽車保養、維修、用車成本等方面有效提升用戶的用車體驗。本章基于汽車的不同應用場景,從KG在推薦系統中冷啟、理由、排序等方面,介紹推薦可用的相關技術,為圖譜及下游應用的實踐提供了思路。知識圖譜在推薦冷啟動中的應用知識圖譜能夠從user-item交互中建模KG中隱藏的高階關系,很好地解決了因用戶調用有限數量的行為而導致的數據稀疏性,進而可以應用在解決冷啟動的問題上。Sang 等[5]提出了一種雙通道神經交互的方法,稱為知識圖增強的殘差遞歸神經協同過濾(KGNCF-RRN),該方法利用KG上下文的長期關系依賴性和用戶項交互進行推薦。Du Y等[6]提出了一種新的基于元學習框架的冷啟問題解決方案MetaKG,包括collaborative-aware meta learner和knowledge-aware meta learner,捕捉用戶的偏好和實體冷啟動知識。在兩個learner的指導下,MetaKG可以有效地捕捉到高階的協作關系和語義表示,輕松適應冷啟動場景。此外,作者還設計了一種自適應任務,可以自適應地選擇KG信息進行學習,以防止模型被噪聲信息干擾,MetaKG架構如下圖所示。
知識圖譜在推薦理由生成中的應用推薦理由能提高推薦系統的可解釋性,讓用戶理解生成推薦結果的計算過程,同時也可以解釋item受歡迎的原因。例如,我們在推薦一篇新車導購的文章時, 使用“粉色系的歐拉外觀非常好看,落地才十萬,你要不要看看?”,或者是“粉色的特斯拉很適合小姐姐開,真是又美又颯!”,這樣類似朋友間的敘述,會有效提升用戶的閱讀體驗。早期的可解釋推薦主要以模板為主,模板好處是保證高可讀性和準確率,但需要人工整理,且泛化性不高,給人一種重復的感覺。后來發展成不需要預設的free-form形式。在知識圖譜上,以其中一條高分路徑作為解釋向用戶展示。對應的基于user-item知識圖譜的路徑推理建模方法有多種,例如具有代表性的KPRN[7]和ECR[8]等,該類模型主要思想是通過用戶的歷史行為,尋找一條item評分最高的最優路徑。例如下圖,通過用戶的“居住地”和“偏好”,可以得到更為形象的汽車推薦理由:“同在長沙,和你一樣喜歡小螞蟻的李先生點贊了這篇文章”。
知識圖譜在推薦排序中的應用KG可以通過給item用不同的屬性進行鏈接,建立user-item之間的interaction,將uesr-item graph和KG結合成一張大圖,可以捕獲item之間的高階聯系。傳統的推薦方法是將問題建模為一個監督學習任務,這種方式會忽略item之間的內在聯系(例如凱美瑞和雅閣的競品關系),并且無法從user行為中獲取協同信號。下面介紹兩篇KG應用在推薦排序的論文。Wang[9]等人設計了KGAT算法(見下圖),首先利用GNN迭代對embedding進行傳播、更新,從而能夠快速捕捉高階聯系。其次,在aggregation時使用attention機制,傳播過程中學習到每個neighbor的weight,反應高階聯系的重要程度。最后,通過N階傳播更新得到user-item的N個隱式表示,不同layer表示不同階數的連接信息。KGAT可以捕捉更豐富、不特定的高階聯系。
Zhang[10]等人提出RippleNet模型(見下圖),其關鍵思想是興趣傳播:RippleNet將用戶的歷史興趣作為KG中的種子集合(seed set),然后沿著KG的連接向外擴展用戶興趣,形成用戶在KG上的興趣分布。RippleNet最大的優勢在于它可以自動地挖掘從用戶歷史點擊過的物品到候選物品的可能路徑,不需要任何人工設計元路徑或元圖。
總結綜上,我們主要圍繞推薦介紹了圖譜構建詳細流程,對其中的困難和挑戰做出了分析。同時也綜述了很多重要的工作,以及給出了具體的解決方案,思路以及建議。最后介紹了知識圖譜的應用,特別是推薦領域中冷起、可解釋性、召回排序等方面,介紹了知識圖譜的作用與使用。(注:文中數據來源為汽車之家網站)引用[1] Kim S,Oh S G.Extracting and Applying Evaluation Criteria for Ontology Quality Assessment[J].Library Hi Tech,2019.[2] Protege: https://protegewiki.stanford.edu[3] DocBert,[1] Adhikari A , Ram A , Tang R , et al. DocBERT: BERT for Document Classification[J]. 2019.[4] JanusGraph,https://docs.janusgraph.org/[5] Sang L, Xu M, Qian S, et al. Knowledge graph enhanced neural collaborative filtering with residual recurrent network[J]. Neurocomputing, 2021, 454: 417-429.[6] Du Y , Zhu X , Chen L , et al. MetaKG: Meta-learning on Knowledge Graph for Cold-start Recommendation[J]. arXiv e-prints, 2022.[7] X.Wang, D.Wang, C. Xu, X. He, Y. Cao, and T. Chua, “Explainable reasoning over knowledge graphs for recommendation,” in AAAI, 2019, pp. 5329–5336[8] Chen Z , Wang X , Xie X , et al. Towards Explainable Conversational Recommendation[C]// Twenty-Ninth International Joint Conference on Artificial Intelligence and Seventeenth Pacific Rim International Conference on Artificial Intelligence {IJCAI-PRICAI-20. 2020.[9] Wang X , He X , Cao Y , et al. KGAT: Knowledge Graph Attention Network for Recommendation[J]. ACM, 2019.[10] Wang H , Zhang F , Wang J , et al. RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems[J]. ACM, 2018.
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
攝像頭相關文章:攝像頭原理