基于MAS的個性化信息檢索系統的設計
1 引 言
本文引用地址:http://www.104case.com/article/88705.htmWeb信息的迅速增長造成信息過載,用戶查找信息需借助搜索引擎,而搜索引擎提供的服務卻難以令人滿意。一方面由于用戶和系統的交互性差,用戶清楚自己的信息需求特征卻無法描述,另一方面由于搜索引擎自身特性,無法過濾與用戶無關的文檔。
本文希望采用網絡智能思想,通過多智能代理技術,結合用戶的基本信息和動態信息建立用戶模型和用戶群模型,運用信息檢索和數據挖掘技術,建立了一個個性化信息檢索模型。結合智能體的思想,通過某種方式完成信息查找、過濾和調整。使得系統具有靈活性、智能性和擴充性。
2 Agent技術
Agent是一個實體,具有一定的知識,并能夠針對特定目標有效地運用知識求解問題,具有自主性、交互性、適應性、進化性、可通信性、理性等特性。每個Agent會觀察用戶的動作,主動提供處理環境所需技術,根據用戶反饋不斷更新檢索結果,為實現Web信息檢索智能化提供了有力支持。
多Agent是指具有不同目標的多個Agent對其目標、資源等進行合理的安排,以協調各自行為,最大程度地實現各自的目標,它由多個Agent組成,每個Agent又是一個自治計算實體,具有目標、知識、能力。多Agent適應個性化信息檢索處理環境所需的靈活性的特點,可以在Web上建立能夠完成相應功能的Agent,通過學習不斷適應調整并通過交互相互通信合作,協助用戶準確、有效地獲取信息。
智能代理技術,主要是指具有智能性,可支持高級、復雜自動處理代理軟件技術,并能夠按照設計者指示要求獨立收集信息并在再次過程中自我學習,具有自動性,目標驅動性。連續性和能動性等特點,可以在較高的程度上去分辨識別、理解與應用其用戶的需求及其特征。智能代理技術為Internet上自動的信息收集提供框架。基于此功能特性,通過對相關應用和系統的分析,提出了一個基于MAS的實現框架。
個性化信息檢索是指根據用戶的興趣和特點進行檢索,返回與用戶需求相關的檢索結果。一般檢索過程:首先用戶輸入查詢請求,然后搜索引擎搜索文檔,并將搜索結果返回給用戶,最后用戶查看相關文檔或者修改查詢請求。查看相關文檔或者修改耷誨請求是用戶對檢索信息的反饋,能夠反映用戶信息需隸及其變化。通過反饋信息,實現用戶個人Agent和用戶群Agent的模型更新,完成個性化過濾和協作式推薦2部分功能,因此用戶個人Agent和用戶群Agent是系統的核心。圖1表示該個性化信息檢索模型框架結構。
下面對用戶個人Agent、用戶群Agent、推薦Agent、過濾Agent功能模塊在實現機制上進行分析說明。
2.1 用戶個人Agent
用戶模型的表示采用向量空間模型的方法,將用戶模型表示成一個n維特征向量:
向量的每一維由一個關鍵詞及其權重組成。權重表示用戶是否對某個概念感興趣以及感興趣的程度,文檔模型表示成為一個n維特征向量:
向量的每一維由一個關鍵字及其權重組成。ti表示文檔中的關鍵字j,wji表示關鍵字j在文檔i中的權重。這種方法有利于表達概念在不同用戶模型中的重要程度,而且有利于后續階段匹配任務。用戶模型的更新采用動態信息增補技術,動態信息增補對反饋過濾的信息加入到用戶模型后調整各向量的權重,與用戶無關的特征向量隨著權值的減小從模型中被刪除。
2.2 用戶群Agent
用戶群Agent的建立采用聚類技術。聚類是將具有相同特征的項目和用戶分類,用于建立用戶綜合模型。該聚類為個體和類之間的聚類而不是個體之間的聚類。用戶模型表示成1個n維特征向量:ui={(t1,w1),(t2,w2),…,(tn,wn)},用余弦公式計算用戶和類的相關度。用戶聚類采用關鍵詞匹配法,根據需要設定閥值ε,當用戶和類之間相似度大于ε時,說明用戶屬于該類,興趣相同。用戶群Agent更新算法為用戶群模型的更新為追蹤推薦模型中符合要求的關聯文檔點擊次數,隨著點擊次數的增加,推薦用戶的個人Agent的權重增加。
2.3 查詢Agent
查詢Agent一方面負責用戶Agent查詢引導,另一方面接受用戶群Agent的查詢擴展。
用戶個人Agent查詢引導,將用戶特征模型的向量根據反饋信息提取用戶查詢結果的有關信息和無關信息,將其特征向量加入模型作為調節因子,其調節因子為布爾值,表示用戶是否感興趣,從而引導用戶查詢,修改查詢中的關鍵詞的權重。
用戶群Agent的查詢擴展,用戶個人Agent記錄用戶資源列表,在用戶聚類基礎上查詢,查詢資源聚類形成類資源,將類名表給用戶反饋過濾得到相關類名表,查詢Agent根據相關類名表,更新查詢特征向量,進行擴展查詢,查看點擊興趣Agent的資源列表。
2.4 過濾Agent
用戶模型和過濾文本的匹配包括2方面:用戶個人Agent過濾和用戶群Agent過濾。用戶個人Agent使用關鍵詞匹配法,使用tf-idf計算權重值,然后用余弦公式計算內容相關度。根據需要設定閥值ε,當文檔d和主題q之間相似度大于ε時,說明內容符合主題,是用戶需要的文檔。
用戶群Agent過濾采用基于用戶一項目評價矩陣的表示法。用一個Rm×n矩陣來表示用戶模型。其中m為系統用戶數;n為項目數。矩陣中的每個元素rij表示了用戶i對項目j的評價,一般是某個實數范圍內的整數值。通常值越大,表示用戶對相應項目的偏好程度越高。空元素值表示用戶沒有對相應的項目做出評價。采用這種表示方法的系統多是基于協同過濾的推薦系統。這種表示方法簡單、直觀,不需要任何學習技術就能夠從收集的原始數據(顯性的用戶評價數據)中直接生成。
2.5 推薦Agent
推薦Agent主要負責推薦關聯文檔,并更新用戶群Agent模型。查詢一個n維特征向量{(t1,w1),(t2,w2),…,(tn,wn)},文檔模型為一個n維特征向量:di={,……},推薦模型中個人模型為M={d1,d2,…,dm),則推薦模型中關鍵詞在推薦群中單個用戶的權值為:
根據權值推薦匯集集合排序,并將和用戶有較高相關度的前N個文檔呈現給用戶。
3 系統功能流程分析
該系統的個性化信息搜索分為個性化過濾是通過建立用戶個人Agent進行過濾,而協作式推薦通過建立用戶群Agent進行推薦。
個性化過濾過程 個性化過濾流程如圖2所示,首先通信Agent將反饋信息發送給用戶監控Agent,用戶監控Agent抽取反饋信息中的行為信息,然后結合用戶注冊Agent的基本信息和用戶監控Agent的顯性信息,用戶個人Agent用向量空間模型法提取特征建立模型,最后過濾Agent用關鍵詞匹配方法將個人特征向量和搜索文檔進行匹配過濾得到個性化查詢結果。
協作式推薦過程 協作式推薦流程如圖2所示,首先在用戶聚類的基礎上,查詢特征向量發布到類中各個成員、各個成員查詢資源列表;將查詢資源匯集,然后聚類資源,形成類資源;將類名表發送給用戶,反饋相關類名;最后在類資源中提取相關類資源,經過推薦過濾,形成查看資源。過程如圖3所示:
4 模型特點
(1)該模型采用多智能體技術,使得各個部分自主學習、相互協調;使得個性化信息檢索中的數據收集,模型表示、模型的學習和模型的更新中功能能夠由其中多個Agent更好地協調補充完成,使各個過程具有智能化特點。
(2)充分挖掘用戶的信息需求,用戶注冊Agent主要負責顯性信息的獲得處理,記錄用戶的基本信息和用戶資源列表、用戶直接參與、簡單直接。用戶監控Agent主要負責隱性信息獲得處理,記錄用戶的動態信息,在不影響用戶活動的前提下動態實時獲得最新信息。
(3)采用C/S框架結構,通信模塊介于之間,負責信息交互,個人用戶建模在客戶端代理執行,可以保護用戶的隱私,用戶聚類與合作在服務器端代理實現,可以在充分保護個人隱私的前提下,實現信息資源共享,提高Web信息的覆蓋率。
(4)建模技術的使用,一方面利用個人模型引導用戶提問,過濾檢索結果,使檢索更符合個性化要求;另一方面充分利用群用戶的信息,在合作的基礎上,得到和用戶請求相關的推薦結果,查詢擴展,實現資源共享。
5 結 語
該個性化信息檢索模型提出多智能體的框架結構,運用用戶建模和群建模技術,使兩者相互結合,相互補充,既注重用戶的個性,過濾無關內容,又發揮合作作用,共享相關內容,實現了信息檢索的個性化、智能化。
評論