新聞中心

        EEPW首頁 > 智能計算 > 業界動態 > 微軟亞洲研究院:NLP將迎來黃金十年

        微軟亞洲研究院:NLP將迎來黃金十年

        作者: 時間:2018-12-05 來源:億歐網 收藏

          比爾·蓋茨曾說過,“語言理解是人工智能皇冠上的明珠”。自然語言處理(,Natural Language Processing)的進步將會推動人工智能整體進展。

        本文引用地址:http://www.104case.com/article/201812/395252.htm

           的歷史幾乎跟計算機和人工智能(AI)的歷史一樣長。自計算機誕生,就開始有了對人工智能的研究,而人工智能領域最早的研究就是機器翻譯以及自然語言理解。

          在 1998 年亞洲研究院成立之初, 就被確定為最重要的研究領域之一。歷經二十載春華秋實,在歷屆院長支持下,亞洲研究院在促進 NLP 的普及與發展以及人才培養方面取得了非凡的成就。共計發表了 100 余篇 ACL 大會文章,出版了《機器翻譯》和《智能問答》兩部著作,培養了 500 名實習生、20 名博士和 20 名博士后。我們開發的 NLP 技術琳瑯滿目,包括輸入法、分詞、句法/語義分析、文摘、情感分析、問答、跨語言檢索、機器翻譯、知識圖譜、聊天機器人、用戶畫像和推薦等,已經廣泛應用于 Windows、Office、Bing、認知服務、小冰、小娜等微軟產品中。我們與創新技術組合作研發的微軟對聯和必應詞典,已經為成千上萬的用戶提供服務。

          過去二十年,NLP 利用統計機器學習方法,基于大規模的帶標注的數據進行端對端的學習,取得了長足的進步。尤其是過去三年來,深度學習給 NLP 帶來了新的進步。其中在單句翻譯、抽取式閱讀理解、語法檢查等任務上,更是達到了可比擬人類的水平。

          基于如下的判斷,我們認為未來十年是 NLP 發展的黃金檔:

          來自各個行業的文本大數據將會更好地采集、加工、入庫。

          來自搜索引擎、客服、商業智能、語音助手、翻譯、教育、法律、金融等領域對 NLP 的需求會大幅度上升,對 NLP 質量也提出更高要求。

          文本數據和語音、圖像數據的多模態融合成為未來機器人的剛需。這些因素都會進一步促進對 NLP 的投資力度,吸引更多人士加入到 NLP 的研發中來。因此我們需要審時度勢、抓住重點、及時規劃,面向更大的突破。

          因此,NLP 研究將會向如下幾個方面傾斜:

          將知識和常識引入目前基于數據的學習系統中。

          低資源的 NLP 任務的學習方法。

          上下文建模、多輪語義理解。

          基于語義分析、知識和常識的可解釋 NLP。

          重點知識:NLP 的技術進展

          自然語言處理,有時候也稱作自然語言理解,旨在利用計算機分析自然語言語句和文本,抽取重要信息,進行檢索、問答、自動翻譯和文本生成。人工智能的目的是使得電腦能聽、會說、理解語言、會思考、解決問題,甚至會創造。它包括運算智能、感知智能、認知智能和創造智能幾個層次的技術。計算機在運算智能即記憶和計算的能力方面已遠超人類。而感知智能則是電腦感知環境的能力,包括聽覺、視覺和觸覺等等,相當于人類的耳朵、眼睛和手。目前感知智能技術已取得飛躍性的進步;而認知智能包括自然語言理解、知識和推理,目前還待深入研究;創造智能目前尚無多少研究。比爾·蓋茨曾說過,“自然語言理解是人工智能皇冠上的明珠”。NLP 的進步將會推動人工智能整體進展。

          NLP 在深度學習的推動下,在很多領域都取得了很大進步。下面,我們就來一起簡單看看 NLP 的重要技術進展。

          1、神經機器翻譯

          神經機器翻譯就是模擬人腦的翻譯過程。

          翻譯任務就是把源語言句子轉換成語義相同的目標語言句子。人腦在進行翻譯的時候,首先是嘗試理解這句話,然后在腦海里形成對這句話的語義表示,最后再把這個語義表示轉化到另一種語言。神經機器翻譯就是模擬人腦的翻譯過程,它包含了兩個模塊:一個是編碼器,負責將源語言句子壓縮為語義空間中的一個向量表示,期望該向量包含源語言句子的主要語義信息;另一個是解碼器,它基于編碼器提供的語義向量,生成在語義上等價的目標語言句子。

          神經機器翻譯模型的優勢在于三方面:一是端到端的訓練,不再像統計機器翻譯方法那樣由多個子模型疊加而成,從而造成錯誤的傳播;二是采用分布式的信息表示,能夠自動學習多維度的翻譯知識,避免人工特征的片面性;三是能夠充分利用全局上下文信息來完成翻譯,不再是局限于局部的短語信息。基于循環神經網絡模型的機器翻譯模型已經成為一種重要的基線系統,在此方法的基礎上,從網絡模型結構到模型訓練方法等方面,都涌現出很多改進。

          神經機器翻譯系統的翻譯質量在不斷取得進步,人們一直在探索如何使得機器翻譯達到人類的翻譯水平。2018 年,微軟亞洲研究院與微軟翻譯產品團隊合作開發的中英機器翻譯系統,在 WMT2017 新聞領域測試數據集上的翻譯質量達到了與人類專業翻譯質量相媲美的水平 (Hassan et al., 2018)。該系統融合了微軟亞洲研究院提出的四種先進技術,其中包括可以高效利用大規模單語數據的聯合訓練和對偶學習技術,以及解決曝光偏差問題的一致性正則化技術和推敲網絡技術。

          2、智能人機交互

          智能人機交互包括利用自然語言實現人與機器的自然交流。其中一個重要的概念是“對話即平臺”。

          “對話即平臺(CaaP,Conversation as a Platform)”是微軟首席執行官薩提亞·納德拉 2016 年提出的概念,他認為圖形界面的下一代就是對話,并會給整個人工智能、計算機設備帶來一場新的革命。

          薩提亞之所以提出這個概念是因為:首先,源于大家都已經習慣用社交手段,如微信、Facebook 與他人聊天的過程。我們希望將這種交流過程呈現在當今的人機交互中。其次,大家現在面對的設備有的屏幕很小(比如手機),有的甚至沒有屏幕(比如有些物聯網設備),語音交互更加自然和直觀。對話式人機交互可調用 Bot 來完成一些具體的功能,比如訂咖啡,買車票等等。許多公司開放了 CAAP 平臺,讓全世界的開發者都能開發出自己喜歡的 Bot 以便形成一個生態。


        上一頁 1 2 3 4 下一頁

        關鍵詞: 微軟 NLP

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 西昌市| 潮州市| 当阳市| 习水县| 南投市| 扎赉特旗| 唐山市| 汾西县| 荔波县| 新余市| 花垣县| 台州市| 大庆市| 嘉鱼县| 广东省| 广汉市| 灌阳县| 襄樊市| 开封县| 长治市| 房产| 莱州市| 洛阳市| 鄂伦春自治旗| 昌都县| 鹤壁市| 广平县| 克拉玛依市| 西乌珠穆沁旗| 泸溪县| 深圳市| 温宿县| 金华市| 香格里拉县| 巴南区| 乌鲁木齐市| 蒙自县| 阜康市| 青铜峡市| 桐乡市| 吴江市|