新聞中心

EEPW首頁 > 智能計算 > 業界動態 > 智能語音科技簡史（2018版），這場技術革命從哪開始？

智能語音科技簡史（2018版），這場技術革命從哪開始？

作者：時間：2018-04-20 來源：與非網

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

編者按：我國智能語音市場整體處于啟動期，智能車載，智能家居，智能可穿戴等垂直領域處于爆發前夜。

　　1988年，卡耐基梅隆大學結合矢量量化技術(VQ)，用VQ/HMM方法開發了世界上第一個非特定人大詞匯量連續語音識別系統SPHINX，能夠識別包括997個詞匯的4200個連續語句。

本文引用地址：http://www.104case.com/article/201804/378689.htm

　　同年，清華大學和中科院聲學所在大詞庫漢語聽寫機的研制上取得了突破性進展。

　　1990年，聲龍發布了第一款消費級語音識別產品Dragon Dictate，價格高達9000美元。

　　1992年，IBM引入了它的第一個聽寫系統，稱為“IBM Speech Server Series (ISSS)”。

　　1992年研發的Sphinx-II在同年美國國防部先進技術研究計劃署(DARPA)資助的語音基準評測中獲得了最高的識別準確度，這主要得益于其在高斯混合和馬爾可夫狀態層次上用栓連參數平衡了可訓練性和高效性。

　　1995年，Windows 95上首次搭載微軟SAPI，它使應用程序開發者能夠在Windows上創建語音程序。

　　1995年，AT&T研究院的 Dave Ladd， Chris Ramming， Ken Rehor 以及 Curt Tuckey 在頭腦風暴關于互聯網會如何改變電話應用的時候，產生了一些新的想法：為什么不設計這樣一個系統來運行一種可以解析某種語音標記語言的語音瀏覽器，用來把互聯網的內容和服務提供到千家萬戶的電話上。于是，AT&T就開始“電話網絡項目”(Phone Web Project)。之后，Chris繼續留在AT&T，Ken去了朗訊，Dave和Curt去了摩托羅拉。(1999年初的時候，他們分別在各自的公司邁出了語音標記語言規范實質性的第一步。因為他們的密友關系，這幾家公司合作成立了一個VoiceXML論壇組織，IBM也作為一個創始公司加入了進來。)

　　1997年IBM ViaVoice首個語音聽寫產品問世，你只要對著話筒喊出要輸入的字符，它就會自動判斷并且幫你輸入文字。次年又開發出可以識別上海話、廣東話和四川話等地方口音的語音識別系統ViaVoice’ 98。

　　1998年，微軟在北京成立亞洲研究院，將漢語語音識別納入重點研究方向之一。

　　2001年，比爾蓋茨在美國消費電子展上展示了一臺代號為MiPad的原型機。Mipad展現了語音多模態移動設備的愿景。

　　2002年，中科院自動化所及其所屬模式科技公司推出了“天語”中文語音系列產品——Pattek ASR，結束了該領域一直被國外公司壟斷的局面。

　　2002年，美國國防部先進技術研究計劃署(DARPA)首先啟動了EARS項目和TIDES 項目; 由于EARS項目過于敏感，EARS和TIDES兩個項目合并為“全球自主語言開發”(Global Autonomous Language Exploitation，GALE)。GALE目標是應用計算機軟件技術對海量規模的多語言語音和文本進行獲取、轉化、分析和翻譯。

　　2006年，辛頓(Hinton)提出深度置信網絡(DBN)，促使了深度神經網絡(Deep Neural Network，DNN)研究的復蘇，掀起了深度學習的熱潮。

　　2009年，辛頓以及他的學生默罕默德(D. Mohamed)將深度神經網絡應用于語音的聲學建模，在小詞匯量連續語音識別數據庫TIMIT上獲得成功。

　　2009年微軟Win7集成語音功能。

　　2010年Google Vioce Action支持語音操作與搜索。

　　2011年初，微軟的DNN模型在語音搜索任務上獲得成功。

　　同年科大訊飛將DNN 首次成功應用到中文語音識別領域，并通過語音云平臺提供給廣大開發者使用。

　　2011年10月，蘋果iPhone 4S發布，個人手機助理Siri誕生，人機交互翻開新篇章。

　　2012年，科大訊飛在語音合成領域首創RBM技術。

　　2012年，谷歌的智能語音助手Google Now 的形式出現在眾人面前，用在安卓 4.1 和 Nexus 手機上。

　　2013年，Google發布Google Glass，蘋果也加大了對iWatch的研發投入，穿戴式語音交互設備成為新熱點。

　　同年，科大訊飛在語種識別領域首創BN-ivec技術。

　　2014 年，思必馳推出首個可實時轉錄的語音輸入板。

　　2014年11月，亞馬遜智能音箱Echo發布。

　　2015 年，思必馳推出首個可智能打斷糾正的語音技術。

　　2016年，Google Assistant伴隨Google Home 正式亮相，搶奪亞馬遜智能音箱市場。(亞馬遜Echo在2016年的智能音箱市場占有率達到了巔峰的88%)

　　同年，科大訊飛上線DFCNN(深度全序列卷積神經網絡，Deep Fully Convolutional Neural Network)語音識別系統。

　　同年11月，科大訊飛、搜狗、百度先后召開發布會，對外公布語音識別準確率均達到“97%”。

　　2017年3月，IBM結合了 LSTM 模型和帶有 3 個強聲學模型的 WaveNet 語言模型。“集中擴展深度學習應用技術終于取得了 5.5% 詞錯率的突破”。相對應的是去年5月的6.9%。

　　2017年8月，微軟發布新的里程碑，通過改進微軟語音識別系統中基于神經網絡的聽覺和語言模型，在去年基礎上降低了大約12%的出錯率，詞錯率為5.1%，聲稱超過專業速記員。相對應的是去年10月的5.9%，聲稱超過人類。

　　2017年12月，谷歌發布全新端到端語音識別系統(State-of-the-art Speech Recognition With Sequence-to-Sequence Models)，詞錯率降低至5.6%。相對于強大的傳統系統有 16% 的性能提升。

　　市場分析公司Canalys在2018年1月分布一份報告，其預測2018年將是普及智能音箱的“決定性一年”，相比全年出貨量剛過3000萬臺的2017年，2018年智能音箱全球出貨量預計將達到5630萬臺。

　　中投顧問發布的《2018-2022年中國智能語音行業深度調研及投資前景預測報告》顯示我國智能語音市場整體處于啟動期，智能車載，智能家居，智能可穿戴等垂直領域處于爆發前夜。

　　文章引用

　　[1] 李曉雪. 基于麥克風陣列的語音增強與識別研究[D]. 浙江大學， 2010.

　　[2] 倪崇嘉，劉文舉，徐波. 漢語大詞匯量連續語音識別系統研究進展[J]. 中文信息學報， 2009， 23(1)：112-123.

　　[3] 高朝煌. 非特定人漢語連續數字語音識別系統的研究與實現[D]. 西安電子科技大學， 2011.

　　[4] 《2017年的語音識別，路只走了一半》

　　[5] 《2018-2022年國內外智能語音發展的分析》

　　[6] 《四十年的難題與榮耀—從歷史視角看語音識別發展》

　　[7] 《幾個常見的語音交互平臺的簡介和比較》

　　[8] 《VoiceXML簡介》

　　[9] 《思必馳官方介紹資料》

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： 智能語音

焦點

更多>>

技術專區

關閉

新聞中心

智能語音科技簡史（2018版），這場技術革命從哪開始？

評論

相關推薦

技術專區