新聞中心

        EEPW首頁 > 設計應用 > 智能語義理解搜索引擎中漢語虛詞的形態特征略析

        智能語義理解搜索引擎中漢語虛詞的形態特征略析

        作者:繆天鵬 韓建軍 王振江 時間:2019-05-29 來源:電子產品世界 收藏

          繆天鵬 1 ,韓建軍 1 ,王振江 1

        本文引用地址:http://www.104case.com/article/201905/401021.htm

          (華中科技大學 計算機科學與技術學院,湖北 武漢 430074)

          摘要:語義智能化發展是大數據技術國家重大戰略需求,也是統計學、數據科學、信息科學和管理科學等學科的國際前沿。在大數據環境下,數據的規模、類型、結構和增長速度發生了質的變化,傳統數據分析和處理的統計學理論和分析方法已不能滿足大數據時代下的種種需求。本研究擬圍繞大數據分析與處理的統計學基礎理論與分析方法的核心問題和難點問題,略析語言大數據處理形態新方法, 為大數據技術發展和未來智能等應用提供新基礎理論和方法支撐。

          關鍵詞:

          * 本文得到國家自然科學基金項目(61872411)資助。

          1 認知、互動的智能需求

          Internet互聯網廣泛應用,人們對信息查詢的要求越來越高,目前中全文檢索都是基于關鍵詞匹配的,在不斷膨脹的用戶需求面前,中文搜索所展現出的局限性越來越不可忽視,其中之一就是它不能區分同形異義,岐義現象的產生是沒有建立完整的支撐,完整的是智能化搜索引擎的基礎核心。西方語言是粘連型語言,而漢語是分析型語言,依據漢字的三要素音、形、義進行解析,解“義”而言漢字(詞)分為實詞和,在現有的搜索引擎中,往往通過實詞及關鍵詞匹配來滿足檢索需求,漢字的虛詞常被忽略,而用戶查詢語句的真實意向得不到完整的語義理解 [1-2] 。顯然,漢語虛詞雖無“意”卻有“形”,但在語句中具有語法等功能形態,忽略虛詞、虛(詞)實(詞)關系是形成歧義現象的基本原因之—。

          漢字一詞多義現象也與虛詞的形態變化相關,多義性導致字詞的智能化辨義解析程度降低,出現查詢精度不高、檢索效率低下等現象,為此簡單的關鍵詞匹配(實詞)和完整的語義匹配(實詞+虛詞)是有本質區別的。虛詞雖無義卻有形,其形態量化與關系是首要任務之一,明晰了形態關系也就解決了語句中實詞與虛詞搭配組句的語法、語義、語用,漢語虛詞形態信息提取及量化分析是智能化語義理解不可或缺的 [3-4] 。換言之,詞匯語用修正了詞匯語義在詞語選擇與詞語理解上的缺陷,并指出語境化是理解和使用詞語的關鍵。詞匯的使用和理解不僅僅是一個語言問題,更是一個語用與認知(語感)的問題。

          現代漢語虛詞約800左右,而古代虛詞約1100左右,文言文是古代的書面語言,也是現代漢語的源頭,追本溯源,從繁至簡,正確理解現代漢語虛詞的演變規律和形態變遷,唯有從文言虛詞的形態關系(穩定知識源)分析著手,力求尋找漢語虛詞的自然演變規律 [5]

          智能化搜索引擎面對的漢語語言是一種混合型文體(現代漢語+特殊文體),特殊文體包含詩詞歌賦文言文等,無疑在現代語言中文言虛詞古為今用比比皆是。文言虛詞四種完整形態包括單音、復音、定式搭配、慣性詞組,經甄別該虛詞的完整構詞數量,以保證分詞定位匹配的正確精度。確定虛詞在句中的位置、形態、關系,也就保證了句子的語法、語義、語用方向判斷和邏輯推送的可計算性,從而為智能化搜索奠定了基礎。

          虛詞的虛化程度評價體系是建立虛實關系、量化評價評測、虛化程度分布、相似度分析以及虛實用的概率統計分析 [6] 。虛詞關系模型的建立是語言數據預處理的必經之路,也是打開未來智能漢語語義理解之窗。

          2 感知到認知的數據處理

          本研究主要分為數據預處理和數據分類規約處理。正確的理解現代漢語虛詞的演變規律和形態變遷,為文言虛詞的知識規則結構化處理及定量定位定性分析作準備。文本數據開采必須建立專家知識庫、樣本語料庫,其中包括對數據的凈化、轉換、變量的整合以進行數理統計、數據挖掘、人工智能等技術運用,構造以虛詞為中心的大數據開采平臺。

          2.1 擬解決的關鍵問題

          擬解決的虛詞形態、形態關系及關鍵技術問題:

          ①虛詞構詞形態的四種形式劃分,詞序關系形態.

          ②虛詞虛用虛詞實用的詞法形態.

          ③虛詞的句法形態,句位形態.

          ④虛實比關系.

          2.2 研究內容及方法

          2.2.1 理解數據和數據的來源

          統計知識庫的知識轉化為規則的靜態數據處理,具體而言將虛詞字典的知識內容進行知識規則劃分,依據符號定義和符號規約,完成知識到規則的結構化處理。

          知識庫的建立是將傳統的知識字典按照現代數據處理方法分層分類。語料庫是依據知識庫相對應的知識規則,抽取樣本語料進行規則驗證和規則升降維處理,以滿足規則置信度、相似度、精確匹配以及匹配命中率統計分析。知識庫轉化為規則庫是通過語料驗證匹配才能形成種子規則,以便于精確匹配和提高匹配命中率 [7]

          2.2.2 獲取相關知識與方法

          在建立虛詞的分層分類位置形式上實行定位分析,因為虛詞沒有嚴格,卻有句位特征,如“擇善而從之”(句末特征),以便于句位的統計概率規律分析。定量分析可分為四種形式(單音虛詞、復音虛詞、定式搭配、慣性詞組)的虛詞量化分析,用以滿足虛詞為中心詞的分詞劃分技術加統計分析來實現,從而達到完整語句中的虛字虛用/實用的分層分類 [8-9]

          形態特征分類:

          (1)0層 基本形態特征1:構組詞關系(單音、復音、定式、慣性詞組),詞序(間)關系,虛實比關系(虛實用關系、虛詞與位置關系、虛詞與語義語用關系)。語言形態與詞匯映象。

          (2)1層 基本形態特征2:句法形態(陳述句,疑問句,祈使句,感嘆句),句法成分形態(主語,謂語,賓語,狀語,定語,補語)。語言形態與句法映象。語義結構形態標注,語用功能形態標注(判斷句,省略句,倒裝句,被動句,固定句式)。語言形態與句式映象。

          (3)2層 語義結構形態。虛/實 義結構。?

          (4)3層 語用功能形態。虛/實 用結構。?

          總之,0~1層的基本形態是從語形學視角分析詞匯相關符號與符號之間的關系。而語義學關注的是 有關符號與符號所指之間的關系。語用學則是有關符號與解釋者之間的關系。雖有異曲同工,但語形、語義、語用的三者關系而言,語形以語義為前提,語義是從語用中抽象出來的。而語用學是符號學基礎,確切的語用特征是它處理符號化過程的不同形態(如句位形態)選擇同樣暗含語用信息(話語環境、交談對象或話語事件等)[10] 。上下文環境對象事件從語用視角延伸至語境都是認知語言學基本范疇,而句位形態引入展現人類語言習得過程和機理,認知形態的又一新視野。

        1559543981451079.png

        1559543944367396.png

          2.3 整合與檢查數據

          定性分析在完成了定量定位分析的基礎上,知識到規則轉換經統計實現各虛詞特定位置所表達的意合概率以及分層聚類處理。

          2.4 數據清理,去除錯誤或不一致的數據

          虛字的虛實不分會造成數據的不一致性,虛字實用在虛實化統計分析中客觀反映量化分析的每一個字的虛化程度,從而將字的虛化演變過程從靜態到動態進行明確的量化屬性分析。通過形式量化、數理統計等方法,將常用虛字18(A集)對應中學語料117篇進行虛實分類得出四種形式與頻度的關系。確定了虛字在句中的位置、句位和形式以及規則分布和各概率分布映象,再經過置信測試和語料保障測試,使其樣本依據具有足夠的置信度 [11]

          根據字典的知識理論定性分析得出基于A集18常用虛字的虛實比分類結果。通過字的虛實規則形態確定,該句的語用功能語義結構方向判斷清晰,有效降低了歧義現象的產生。

          2.5 數據域定義

          歷時數據的采集:經驗+知識=規則(虛詞字典)

          共時數據的采集:中學語文常用虛詞18(A集)+大學語文常用虛詞36(B集)+專業語言工作者常用虛詞49(C集)

          語料數據的采集:字典范例對應語料,中學文言文117篇,古文觀止220篇,歷年全國語文高考語料實例

          通過規則結合統計的方法實現知識到規則的數字化處理,加上句位分析、虛詞分詞技術、詞序規則規約分類。經基本處理,可以得到完整句子中的詞序詞態句位基因碼,為后續的數字解析與語義理解奠定了基礎。它是數據挖掘、云計算的基礎。

          研究思路與技術路線示意圖如下:

          2.6 實際數據挖掘工作

          句位分析是依據漢字虛詞的句位特征進行區域劃分(固定句位/相鄰句位),通過概率統計得出虛字在句首句中句尾的句位特征與出現的概率頻度,結合分類歸層進行相似度分析以及優先度分析等方法。

          虛詞分詞劃分技術是采用經驗知識將規則的形式分類(四種形式),以固定組詞長度、完整的內容實現虛詞的準確劃分。其中虛詞虛實化是固定完整內容的關鍵。

          詞序描述:傳統的文本字符書寫習慣是從左至右線型順序展開,符號語言描述也應遵循習慣規律,即文本字符串(句子)=符號邏輯規則。

          例1:彬之總師也 分解:彬/n01 之/c0701 總師/n02根據屬性抽取符號邏輯規則:n01c0701n02邏輯規則解釋:虛字“之”用作并列連詞c0701,詞序連接是邏輯與對象前置n01后置n02,n為名詞。

          例2:上臨哭之慟 分解:上臨哭/O 之/u1802 慟/v01根據屬性抽取符號邏輯規則:Ou1802v01邏輯規則解釋:該虛字“之”為結構助詞u1802,詞序連接是邏輯與對象前置O后置v01,v為動詞,O為賓語。

          由例1例2知,詞序規則碼不同,“之”字的詞法句法的語用功能完全不同。

          7)測試和驗證挖掘結果、解釋和應用在獲取了最終的邏輯規則樹之后,就需要對邏輯規則的研究的正確性作驗證分析,在此處,以高考中的真題作為實例進行分析驗證 [12]

          例3:2013年高考語文安徽卷下列各組句子中,加點詞的意義和用法相同的一組是(D)

          A.陸生因說佗曰 B.將相欲移兵而誅王伺者因此覺知 今人有大功而擊之C.尉佗乃蹶然起坐 D.佗因稍以法誅秦所置長史今其智乃反不能急 獨籍所殺漢軍數百人運用邏輯規則的方法對例1進行驗證,驗證結果如表1例1各選項分析表所示。

          形似結論XS邏輯判斷通式f(XS,A)=((CB(A1) ∧CB(A2))∨(JW(A1) ∧JW(A2)))

          ∧(YY(A1) ∧(YY(A2))

          如此類推,得出f(XS,A,B,C,D)=(XS,F,F,F,T)。

          由形似結論XS到分析結論FX的邏輯推送:XS1(A)∨ XS1(B)∨ XS1(C)∨ XS1(D)

          ﹛F,F,F,T﹜﹛D﹜通過邏輯規則和句位特征分析可以得到本題的正確答案為D。由此可知,句位特征屬性形似意不合是歧義產生的外在因素,其內因是虛詞實用或虛用不同結果 [13]

          3 技術創新點

          ①虛詞形式劃分與分詞技術,文言文在現代搜索技術中是無法切分的,本研究基本解決古文的以虛詞為中心的形態劃分與分詞技術實現。

          ②虛詞的虛用/實用形態特征加句位特征分析是解決組合形態特征的關鍵,為語句的邏輯判斷與邏輯推送起到了語義語用功能的方向判斷,為智能化的可計算的語義理解提供了科學的理論與技術支撐 [14-16]

          綜上所述,運用定性分析方法解決虛詞的基本形態劃分和形態特征分析,可滿足以虛詞為中心的分詞技術在對特殊文體(文言文)中的虛用實用甄別,通過梳理句中的詞序關系和詞間關系,加上句位特征,形成一種穩定組合形態,依此對應句中的語法意義、語義結構、語用功能,使特征數據的結構更加明晰,更可計算,以便于大數據挖掘 [17-18]

          漢語語義理解高端智能化終極目標之一就是實現人機交互更深層次需求,提出以虛詞為形態標識評價評測體系方法,實現特殊文體(文言文)分詞劃分技術 [19] ;運用句位分析方法完成語句的虛實化靜態到動態量化演變分析 [20] ,為語句中各形態建立可分析可計算多維形態標識 [21-22]

          通過對漢語文言常用虛詞的虛實化數據挖掘與分析,以虛詞為中心對實現分詞劃分,結合形態、句位分析和虛用實用功用判別,實現詞法結構到語法語義結構和語用功能的全方位數據知識圖譜 [23-24] ,為未來的智能化搜索語義理解提供可計算、可判斷的全析理解奠定了實用基礎 [25] ,也就提供了語言數字化處理的智能理解支撐,在此基礎上可擴充到現代漢語虛字的延展,就能滿足未來各行各業的智能化(例:智能搜索、機器人、APP在線教育等)需求。

          參考文獻

          [1]呂叔湘. 現代漢語語法分析問題[M]. 北京:商務,1979.

          [2]何樂士. 古代漢語虛詞詞典. 北京: 語文出版社, 2006: 1-663.

          [3]何金松. 虛詞歷時詞典. 湖北: 湖北人民出版社, 1994: 1-554.

          [4]王延飛, 秦鐵輝. 信息分析與決策. 北京:北京大學出版社, 2001.

          [5]宗成慶. 統計自然語言處理. 北京:清華大學出版社. 2008年5月第1版: 1-243.

          [6]俞士汶. 建設綜合型語言知識庫的理念與成果的價值[J]. 中文信息學報, 2007(6).

          [7]Dong Zhendong, Dong Qiang. HowNet and the Computation of Meaning[M]. Singapore WorldScientific Publishing Company, 2006.

          [8]昝紅英, 張坤麗, 柴玉梅, 俞士汶. 現代漢語虛詞知識庫的研究. 中文信息學報, 2007, 21(5):107-111.

          [9]朱德熙. 語法講義. 北京: 商務印書館, 1982年9月第一版.

          [10]詹衛東. 基于配價的漢語語義詞典. 語言文字應用, 2000(1):37-43.

          [11]魯川,漢語句子的語義成分和語用成分.中國語文雜志社編, 語法研究和探索, 北京:北京大學出版社,1988年9月,309-319.

          [12]郭錫良, 虛詞研究評議. 語言科學,2003(1):87-98

          [13]昝紅英, 朱學鋒. 面向自然語言處理的漢語虛詞研究與廣義虛詞知識庫構建. 當代語言學, 2009, 11(2):124-135

          [14]俞士漢,朱學鋒. 關于漢語信息處理的認識及其研究方略. 《語言文字應用》, 2002(2):51-85

          [15]Noam Chomsky. Syntactic Structures. 北京: 中國社會科學出版社, 1979: 28-35.

          [16]Noam Chomsky, Aspects of the Theory of Syntax. MIT Press (Cambridge, MA), 1966, 127-145.

          [17]Christopher D. Mannning, Hinrich Schutze. Foundations of Statistical Natural LanguageProcessing [M]. 2005.

          [18]張大方, 張潔坤, 黃昆. 一種基于智能有限自動機的正則表達式匹配算法. 北京:電子學報, 2012(8).

          [19]陳志泊.數據倉庫與數據挖掘[M].北京:清華大學出版社.

          [20]Liu B, Hsu W. Integrating classification and association rulemining Agrawal R, Stdorz P,PiatetskyG.rocof4thInternationalConferen. ce. on Knowledge Discovery and Data Mining. Menlo Park:AAAI Press, 1998:80-86.

          [21]Kuncheva L I. Editingfor the knearest neighbors rule by agenetic. Pattern Recognition Letters, 1995,16:809-814.

          [22]Friedman N, Geiger D, Goldszmidt M. Bayesian network classifier. Machine Learning,1997,29(1):131-163.

          [23] 曾黃麟.粗集理論及其應用.重慶:重慶大學出版社,1996.

          [24]Chureh K W, Mereer P L. Introduction to the Special Issue onComputational Linguistics Using Large Corpora. ComputationalLinguistics, 1993, 19(1):1-24.

          [25]T. Cohn, F. Blunsom. Semantic Role Labeling with Tree ConditionalRandom Fields. Proceedings of the Ninth Conference on ComputationalNatural Language Learning. Ann Arbor, Michigan: Association forComputational Linguistics. 2005: 169-172.

          本文來源于科技期刊《電子產品世界》2019年第6期第52頁,歡迎您寫論文時引用,并注明出處



        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 凤台县| 洛川县| 徐水县| 韶山市| 丽水市| 屯门区| 揭东县| 山丹县| 宁武县| 云安县| 荔波县| 伊宁市| 西贡区| 连山| 家居| 英吉沙县| 融水| 两当县| 娄底市| 河南省| 玉山县| 灵石县| 南昌县| 花莲市| 巧家县| 枞阳县| 大宁县| 平远县| 涿鹿县| 砚山县| 榆社县| 安陆市| 白沙| 东山县| 阳朔县| 水富县| 周至县| 保德县| 永年县| 鹤峰县| 开封市|