博客專欄

EEPW首頁 > 博客 > 獨家 | 聊天機器人開發中的機器學習（附鏈接）

獨家 | 聊天機器人開發中的機器學習（附鏈接）

發布人：數據派THU 時間：2021-10-20 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

作者：Omkar Prabhune

翻譯：方星軒

校對：王雨桐

本文將詳細介紹聊天機器人的類型、它們的開發以及背后原理。

首先讓我們先了解一些基礎知識。聊天機器人（對話式 AI）是一種自動化程序，可通過文本消息、語音聊天來模擬人類對話。它根據大量輸入和自然語言處理 (NLP) 學習如何做到這一點。

今天的聊天機器人在社交媒體、電子商務、客戶服務甚至醫療保健的許多行業和公司中都是不可或缺的。一些典型的例子是微軟的 Zo、IBM Watson 或 Rasa（一種用于構建商業用途的聊天機器人的工具）。

那就讓我們來看看到底是怎么樣的吧！

聊天機器人的類型（基于規則、基于意圖、開放域）

聊天機器人架構

自然語言處理

行業實例

進一步研究和參考

聊天機器人的類型

基于規則的聊天機器人

基于規則的聊天機器人也稱為決策樹機器人。顧名思義，它們使用一系列已定義的規則。這些規則是聊天機器人熟悉并可以提供解決方案的問題類型的基礎。

就像流程圖一樣，需要給聊天機器人設置對話框架。他們這樣做是為了預測客戶可能會問什么，以及聊天機器人應該如何回應。

基于規則的聊天機器人可以使用非常簡單或復雜的規則，但是他們無法回答定義規則之外的任何問題。這些聊天機器人不會通過交互來學習。此外，他們只執行和處理被訓練的場景。基于規則的聊天機器人有幾個好處，例如：

聊天機器人不需要大量訓練，這使得實施過程更快、更簡單。

通過預先定義結構和答案，您可以更好地控制聊天機器人的行為和響應。

然而它也有有其局限性，它們的一些缺點是：

基于規則的聊天機器人無法捕獲拼寫錯誤，這意味著在某些情況下它無法理解客人的意思，這可能會使交流變得無效。

與簡單聊天機器人交互的直觀感覺就是機器人而不是真人對話。

他們不能自己學習，這意味著任何改進都需要手動進行。

基于意圖的聊天機器人

相比之下，使用機器學習的 AI 聊天機器人會在回應之前了解問題的上下文和意圖。

AI 聊天機器人是由自然語言處理提供支持的聊天機器人。因此與基于規則的聊天機器人不同，它不會使用關鍵字來回答，而會嘗試了解客人的意圖，即客人想要什么。它與客人互動得越多，就越能更好地理解意圖，也就越能回答客人的要求。

他們的工作方式是捕捉問題或回應背后的意圖。例如，用戶會問類似“你好！你好嗎？'甚至像'Heyooo'這樣的東西。盡管這些差異很大，但機器人將意圖捕獲為“問候”，因此它會以與該內容相對應的對話進行響應。

開放域聊天機器人

可以說，基于意圖聊天的聊天機器人也是基于人工智能的機器人。這些聊天機器人在半智能或完全人工智能支持的算法上運行。基于 GPT-3 構建的機器人就是一個完美的例子，它可以理解上下文并完全自行響應。

這種類型的機器人更適合復雜種類和大規模查詢。選擇 AI 聊天機器人有幾個優勢，例如：

它可以理解拼寫錯誤和語法錯誤，因此這種情況下，它仍然能夠回答問題。

它將在沒有幫助的情況下不斷改進。

與人工智能聊天機器人交談感覺更自然、更像人類。

盡管人工智能是一項先進技術，但該機器人也有其局限性：

AI 聊天機器人經歷了一個學習過程，這使得它們的實施過程更加復雜和耗時。

由于不使用預定義的結構，AI 聊天機器人引導的對話不太可預測。

當聊天機器人被錯誤地教授某些東西時，它需要一段時間才能“忘記”并學習正確的行為。

聊天機器人架構

自然語言處理引擎（NLP Engine）

引擎是核心組件，可以在任何給定時間解釋用戶所說的話，并將語言轉換為系統可以進一步處理的結構化輸入。即使聊天機器人是特定于域的，它也需要包含和利用大量信息。而NLP 引擎對此有所幫助。

它包含先進的機器學習算法來識別用戶的意圖，并進一步將它們與機器人支持的可用意圖列表進行匹配。可以理解為有兩個組成部分：

意圖分類器（Intent Classifier）：意圖分類器根據用戶的輸入識別其含義，并將其與聊天機器人支持的意圖之一聯系起來。

實體提取器（Entity Extractor）：實體提取器從用戶的查詢中提取關鍵信息。

知識庫

這是回答用戶問題的關鍵部分。問答系統解釋問題并從知識庫中給出相關答案。它可以手動訓練或自我訓練。

手動訓練涉及領域專家創建常見用戶查詢列表并映射其答案。這有助于機器人快速確定重要問題的答案。

自動化訓練涉及將公司的文件（如政策文件和其他問答類型的文件）提交給機器人，并要求其進行自我訓練。引擎從這些文檔中提供了一系列問題和答案，然后機器人可以自信地回答。

數據存儲

數據存儲只是針對以前交互的數據，以提供給 NLP 引擎，以便機器人在聊天期間保留一些上下文。這對于記住有關用戶的知識以進行進一步交互尤其重要。

自然語言處理

聊天機器人中的自然語言處理找到了一種將用戶的語音或文本轉換為結構化數據的方法。然后用于選擇相關答案。自然語言處理包括以下步驟；

標記化（Tokenization）：NLP 將一系列單詞分成具有語言代表性的標記或片段，在應用程序中具有不同的值。

情感分析（Sentiment Analysis）：它會研究和學習用戶的體驗，并在必要時將對話轉給人類。

規范化（Normalization）：該程序模型處理文本以找出符合用戶請求和預期含義中的印刷錯誤和常見拼寫錯誤。

命名實體識別（Named Entity Recognition）：聊天機器人的程序模型尋找不同類別的詞，類似于特定產品的名稱、用戶的地址或姓名，以需要的信息為準。

依賴解析（Dependency Parsing）：聊天機器人搜索用戶文本中的主語、動詞、賓語、常用短語和名詞，以發現用戶想要傳達的相關短語。

行業實例

谷歌的Meena（“米娜”音譯）

Meena 是一種端到端的神經會話模型，它可以學習對給定的會話上下文做出明智的響應。訓練目標是最小化困惑度，即預測不確定的下一個標記（在本例中為對話中的下一個單詞）。

其核心是 Evolved Transformer seq2seq 架構，這是一種通過進化神經架構搜索發現的 Transformer 架構，以改善困惑度。在 Google 的 AI 博客中了解更多信息。

更多信息

https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

Replika

Replika 由 Eugenia Kuyda 創立，其想法是創建一個私人人工智能，通過提供有用的對話來幫助您表達和記錄自己。這是一個您可以安全地分享您的想法、感受、信念、經歷、記憶、夢想的空間——您的“私人感知世界”。

從本質上講，Replika 是一個聊天機器人，在與您交談時，它會逐漸學會模仿您，直到成為您為止。

微軟的 Tay

Tay 是一款人工智能聊天機器人，最初由微軟公司于 2016 年 3 月 23 日通過 Twitter 發布；當機器人開始通過其 Twitter 帳戶發布煽動性和攻擊性的推文時，它引起了爭議，導致微軟在推出后僅 16 小時就關閉了該服務。從那以后，它被視為關于用戶交互如何破壞聊天機器人的研究案例。

參考

在完成本文的過程中，我們參考了以下幾個來源。除此之外，如果您對學習或開發聊天機器人感興趣，我們歡迎您查看 Rasa，這是一個用于開發聊天機器人的流行開源庫。在 Medium 上還有 Chatbotslife 雜志！

參考來源：

“Towards a Conversational Agent that Can Chat About…Anything”, Google Research: Brain Team, 2020

“Understanding the Architecture of Conversational Chatbots”, VSoftConsulting Blog, 2019

“The Rise of Social Bots”, Ferrara Emilio, Varol Onur, Davis Clayton, Communications of the ACM, July 2016

“Why Microsoft's ‘Tay' AI bot went wrong”, Hope Reese, Tech Republic, March 2016

原文鏈接：

https://medium.com/@OverPoweredDev/machine-learning-in-chatbot-development-99a6c011483f

原標題：

Machine Learning in Chatbot Development

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

電流變送器相關文章:電流變送器原理
電化學工作站相關文章:電化學工作站原理
燃氣報警器相關文章:燃氣報警器原理

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： 機器學習

焦點

更多>>

技術專區

關閉

博客專欄

獨家 | 聊天機器人開發中的機器學習（附鏈接）

相關推薦

技術專區