新聞中心

EEPW首頁(yè) > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 主題搜索引擎的探究

主題搜索引擎的探究

作者：時(shí)間：2012-06-05 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

ch數(shù)組表示的是文本內(nèi)容，juli是詞的長(zhǎng)度， TreeMap數(shù)組存儲(chǔ)不同長(zhǎng)度的詞。

方法2:public synchrONized void ciPinTongJi(HashMaphm,char[]ch,int size,TreeMap[] tmp)。

方法2是并發(fā)執(zhí)行的，正反匹配都需要這個(gè)方法。HashMap存儲(chǔ)字典中詞的第1個(gè)字，ch數(shù)組表示的是文本內(nèi)容，size是文件的長(zhǎng)度，TreeMap是數(shù)組存儲(chǔ)不同長(zhǎng)度的詞，按照2個(gè)字、3個(gè)字、多個(gè)字的存儲(chǔ)順序存儲(chǔ); 而且方法2是對(duì)外的接口，方法2調(diào)用方法1,并利用方法1返回的結(jié)果得到分詞的結(jié)果和詞頻結(jié)果。當(dāng)從文本讀入1個(gè)字時(shí)，使用contain( )來(lái)判斷HashMap中是否存在這個(gè)字的映射，如果存在就取得長(zhǎng)度等于字典中最長(zhǎng)詞的一段內(nèi)容，在TreeMap數(shù)組中進(jìn)行查找，如果在TreeMap中找到對(duì)應(yīng)的映射則對(duì)應(yīng)的鍵值加1,輸出時(shí)在詞后面加上分割符號(hào)'',然后繼續(xù)重復(fù)前面的步驟，直到文件結(jié)束，退出;如果TreeMap中不存在，那么i+1,讀取下一個(gè)字，重復(fù)前面的步驟，直到文件的結(jié)尾，退出，程序結(jié)束。

正向匹配程序流程圖如圖3所示。

3 全文檢索引擎Lucene的應(yīng)用

Lucene本身只是一個(gè)組件，若想讓Lucene真正起作用，還得在Lucene基礎(chǔ)上進(jìn)行必要的2次開發(fā)[7].下面的方案是對(duì)Lucene的應(yīng)用研究，在本系統(tǒng)實(shí)現(xiàn)過(guò)程中要解決的關(guān)鍵問(wèn)題有：數(shù)據(jù)加工及文本數(shù)據(jù)庫(kù)的實(shí)現(xiàn);全文數(shù)據(jù)索引;全文數(shù)據(jù)檢索和結(jié)果處理。

3.1 運(yùn)行環(huán)境

操作系統(tǒng)：Windows NT/2000/xp;開發(fā)語(yǔ)言：Java、JSP;開發(fā)環(huán)境：MyEclipse6.5;API插件：Lucene2.3.2(Jakarta Lucene是一套免費(fèi)的開放源代碼，由 Apache Jakarta開發(fā));Web服務(wù)器：Apache的Tomcat6.0.

Lucene在Java環(huán)境下運(yùn)行，因此首先要安裝jdk并設(shè)置環(huán)境變量JAVA_HOME,還要安裝tomcat6.0.到Lucene的官方網(wǎng)站下載1份拷貝(筆者下載的是最新版2.3.2)，下載后將得到一個(gè)名為lucene-2.3.2.zip和apache-ant-1.7.0-bin.zip的壓縮文件，將其解壓即可。

3.2 系統(tǒng)結(jié)構(gòu)

該應(yīng)用分為3部分：(1)數(shù)據(jù)庫(kù)發(fā)布平臺(tái)，包括服務(wù)器、Java環(huán)境、Lucene API、中文分詞模塊;(2)HTML文件倒排檔生成系統(tǒng);(3)服務(wù)器端執(zhí)行的JSP程序和用戶界面。系統(tǒng)結(jié)構(gòu)如圖4所示。

3.3 Lucene的擴(kuò)展

對(duì)于Lucene組件包，為了能夠支持中文，要進(jìn)行修改。首先將改寫后支持中文的分析包IKAnalyzer.jar加入到發(fā)布包Analysis包中。解開Lucene.zip,在解開的目錄srcdemoorgapacheLucenedemo下打開IndexHTML. java.在第1處import org. apache. lucene. analysis. standard. StandardAnalyzer;下面加1行import org.apache. lucene. analysis. IKAnalyzer;,把第2處writer=new IndexWriter (index, new StandardAnalyzer ()，create);注釋掉，換成writer=new IndexWriter(index,new ChineseAnalyzer()， create);解開Luceneweb. War,釋放出configuration. jsp和result. jsp以及web. xml.編輯configuration. Jsp,找到indexLocation變量，賦值成/index(或者用戶自己建立的索引的目錄名稱);編輯result. Jsp,找到Analyzer analyzer=new StopAnalyzer();刪除或者注釋掉，改成Analyzer analyzer=new org. apache. lucene. analysis. IKAnalyzer();.這樣就擴(kuò)展了Lucene的中文分詞的功能。

Lucene并沒(méi)有規(guī)定數(shù)據(jù)源的格式，而只提供了1個(gè)通用的結(jié)構(gòu)(Document對(duì)象)來(lái)接收索引的輸入，因此輸入的數(shù)據(jù)源可以是：數(shù)據(jù)庫(kù)、WORD文檔、PDF文檔、HTML文檔……，只要能夠設(shè)計(jì)相應(yīng)的解析轉(zhuǎn)換器將數(shù)據(jù)源構(gòu)造成Docuement對(duì)象即可進(jìn)行索引。本設(shè)計(jì)實(shí)現(xiàn)了doc、ppt、xls、pdf、txt、xml解析轉(zhuǎn)換器將其文本信息提取出來(lái)。

3.4 搜索性能的比較

經(jīng)過(guò)多次測(cè)試取平均值，本設(shè)計(jì)在搜索主題信息的平均速度上比Google要快，雖然數(shù)量上不如Google檢索的多，但在信息符合度上明顯比其強(qiáng)。這樣就已經(jīng)符合主題用戶，不一定要多只要精而且節(jié)省時(shí)間的需求，這對(duì)于當(dāng)今效率優(yōu)先的市場(chǎng)來(lái)說(shuō)是非常有競(jìng)爭(zhēng)力的。應(yīng)用Lucene的搜索引擎的檢索速度與計(jì)算機(jī)的配置有關(guān)，配置較好的計(jì)算機(jī)的搜索時(shí)間相對(duì)要少。以檢索關(guān)鍵字編程為例，Lucene與Google性能比較結(jié)果如表1所示。

全文檢索引擎Lucene所構(gòu)建的搜索引擎的搜索個(gè)數(shù)是由磁盤存儲(chǔ)的信息量的多少?zèng)Q定的，搜索時(shí)間除了第1次檢索有點(diǎn)慢，以后的時(shí)間耗費(fèi)明顯少于通用搜索引擎。雖然通用搜索引擎提供的信息量大，但是并不是所有的信息都符合用戶的需求，用戶要在大量的信息中篩選有用的信息要花費(fèi)大量的時(shí)間，可見主題搜索引擎的優(yōu)勢(shì)，本設(shè)計(jì)基本符合預(yù)期的結(jié)果。

本文提出了一種解決中文全文檢索的方法，嵌入到Lucene中可以應(yīng)用到搜索引擎、中小企業(yè)網(wǎng)站站內(nèi)檢索、個(gè)人用戶桌面搜索引擎建立、特定文檔檢索數(shù)據(jù)庫(kù)建立等，從而實(shí)現(xiàn)對(duì)目標(biāo)文檔方便地檢索管理，提高檢索效率。并且通過(guò)對(duì)全文檢索引擎Lucene的研究以及在Lucene API上的擴(kuò)展，可以開發(fā)出多種應(yīng)用程序，如：網(wǎng)站內(nèi)容搜索系統(tǒng)、可檢索的郵件系統(tǒng)、海量文獻(xiàn)數(shù)據(jù)搜索系統(tǒng)。為了開發(fā)出性能指標(biāo)更高的搜索引擎可以根據(jù)現(xiàn)有的排序算法或自定義排序算法自行開發(fā)結(jié)果排序模塊加入到Lucene中來(lái)進(jìn)行測(cè)試比較，這些都有待于繼續(xù)研究。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞：探究 搜索引擎 主題

評(píng)論

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

新聞中心

主題搜索引擎的探究

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)