新聞中心

EEPW首頁(yè) > 業(yè)界動(dòng)態(tài) > Google大腦工程師詳解：深度學(xué)習(xí)技術(shù)能帶來(lái)哪些新產(chǎn)品？

Google大腦工程師詳解：深度學(xué)習(xí)技術(shù)能帶來(lái)哪些新產(chǎn)品？

作者：時(shí)間：2017-02-21 來(lái)源：量子位

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編者按：提到深度學(xué)習(xí)，你可能會(huì)想到認(rèn)貓、認(rèn)臉，或者下圍棋、翻譯……其實(shí)，這項(xiàng)技術(shù)還能用在很多你意想不到的地方。

　　那么，“深度學(xué)習(xí)的最新進(jìn)展能帶來(lái)哪些產(chǎn)品上的突破?”

本文引用地址：http://www.104case.com/article/201702/344219.htm

　　Quora上就有這樣一個(gè)問(wèn)題，而Google Brain的研究工程師Eric Jiang也給出一個(gè)最高贊的答案。下面就是Jiang的回答，大周末的，讓我們一起來(lái)漲漲姿勢(shì)：

　　Deep Learning是指包含以下特征的一類機(jī)器學(xué)習(xí)技術(shù)：

　　· 大規(guī)模神經(jīng)網(wǎng)絡(luò)(包含百萬(wàn)級(jí)的自由變量);

　　· 高性能計(jì)算(上千個(gè)并行處理器);

　　· 大數(shù)據(jù)(例如百萬(wàn)級(jí)的彩色圖像、棋譜等)

　　目前，深度學(xué)習(xí)技術(shù)已經(jīng)在眾多領(lǐng)域達(dá)到了先進(jìn)水平，例如視覺(jué)、聲音、機(jī)器人、自然語(yǔ)言處理。深度學(xué)習(xí)最近的進(jìn)展吸收了統(tǒng)計(jì)學(xué)習(xí)[1， 2]、增強(qiáng)學(xué)習(xí)和數(shù)值優(yōu)化的思想。關(guān)于這個(gè)領(lǐng)域的概況，見(jiàn)參考文獻(xiàn)[9， 10]。

　　我下面列出一些借助目前的深度學(xué)習(xí)技術(shù)才可能實(shí)現(xiàn)的產(chǎn)品類別，排名不分先后：

　　定制化數(shù)據(jù)壓縮、壓縮感知、數(shù)據(jù)驅(qū)動(dòng)的傳感器校準(zhǔn)、離線AI、人機(jī)交互、游戲、藝術(shù)助手、非結(jié)構(gòu)化數(shù)據(jù)挖掘、語(yǔ)音合成。

　　定制化數(shù)據(jù)壓縮

　　假設(shè)你在設(shè)計(jì)一個(gè)視頻直播應(yīng)用，希望用一套有損編碼方案來(lái)減少需要向互聯(lián)網(wǎng)上傳的包。

　　你可以用H.264這樣現(xiàn)成的編碼解碼器，但是H.264并不是最理想的解決方案，因?yàn)樗菫橥ㄓ靡曨l校準(zhǔn)的，也就是從貓咪視頻到故事片都能用。改用為FaceTime視頻而校準(zhǔn)的編解碼器可能會(huì)更好，因?yàn)楫?dāng)我們利用了“屏幕中間總是有張臉”這一點(diǎn)，能省下更多流量。

　　然而，設(shè)計(jì)一個(gè)這樣的編碼方案是有難度的。我們要怎樣說(shuō)明臉在什么位置，視頻對(duì)象有多少根眉毛、眼睛是什么顏色、下巴是什么形狀等等特征?如果頭發(fā)擋住了眉毛怎么辦?圖像中沒(méi)有臉或者有多個(gè)人的臉怎么辦?

Google大腦工程師詳解：深度學(xué)習(xí)技術(shù)能帶來(lái)哪些新產(chǎn)品？

　　這時(shí)候，深度學(xué)習(xí)就派上用場(chǎng)了。自動(dòng)編碼器是一種神經(jīng)網(wǎng)絡(luò)，只是它的輸出和輸入數(shù)據(jù)一樣而已。學(xué)習(xí)這個(gè)“恒等映射(identity mapping)”之所以重要，是因?yàn)檫@個(gè)自動(dòng)編碼器的隱藏層神經(jīng)網(wǎng)絡(luò)比輸入層要小。這個(gè)“信息瓶頸”迫使自動(dòng)編碼器在隱藏層中學(xué)習(xí)一種數(shù)據(jù)的壓縮表示(compressed representation)，這種壓縮表示還將被神經(jīng)網(wǎng)絡(luò)的其它層解碼回原始形態(tài)。

　　通過(guò)端到端的訓(xùn)練，自動(dòng)編碼器等深度學(xué)習(xí)技術(shù)可以適應(yīng)你數(shù)據(jù)的細(xì)微差別。不同于主成分分析法(PCA)，編解碼步驟不受(線性)仿射變換的限制。PCA學(xué)習(xí)的是一種“編碼線性變換”，自動(dòng)編碼器學(xué)習(xí)的是“編碼程序”。

　　這讓神經(jīng)網(wǎng)絡(luò)更加強(qiáng)大，能用于更復(fù)雜的、特定領(lǐng)域的壓縮，從在Facebook上存大量自拍到加載速度更快的YouTube視頻，科學(xué)數(shù)據(jù)壓縮再到降低你個(gè)人iTunes資料庫(kù)所占的空間，都能用上這種技術(shù)。設(shè)想一下，假如你的iTunes資料庫(kù)為了讓你的音樂(lè)少占一點(diǎn)空間，它可能專門學(xué)習(xí)一種“鄉(xiāng)村歌曲編碼器”哦!

　　壓縮感知

　　壓縮感知和有損壓縮的解碼方面緊密相關(guān)。很多有趣的信號(hào)都有特定的結(jié)構(gòu)，也就是說(shuō)，信號(hào)的分布并不完全是任意的。這說(shuō)明實(shí)際上，我們不需要為了獲取信號(hào)的完美重建而在奈奎斯特極限采樣，只要我們的解碼算法可以正確地找出它的結(jié)構(gòu)。

　　深度學(xué)習(xí)適用于這個(gè)任務(wù)，因?yàn)槲覀儾恍枰斯?biāo)注特征就能用神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)稀疏結(jié)構(gòu)。以下是一些產(chǎn)品應(yīng)用：

　　超分辨率算法(waifu2X)，就是美劇CSI邁阿密里“增強(qiáng)”按鈕的真實(shí)版;

　　使用WiFi無(wú)線電波干擾可以透視墻壁另一側(cè)的人(MIT Wi-Vi);

　　基于不完全觀察(例如2D圖像、部分遮擋的圖像)解譯3D結(jié)構(gòu);

　　聲納、激光雷達(dá)信息的更精確重現(xiàn)。

　　數(shù)據(jù)驅(qū)動(dòng)的傳感器校準(zhǔn)

　　好的傳感器和測(cè)量裝置通常依賴于昂貴、精密的部件。

　　我們以數(shù)碼相機(jī)為例。數(shù)碼相機(jī)假設(shè)鏡頭中的玻璃鏡片遵循一種精密的幾何結(jié)構(gòu)，拍照時(shí)，內(nèi)置的處理器負(fù)責(zé)用光線通過(guò)透鏡的等式，來(lái)計(jì)算出最終的圖像。

　　如果透鏡有刮痕、彎曲、變形，就打破了相機(jī)原本的假設(shè)，圖像的質(zhì)量也不會(huì)好。

　　再舉一個(gè)例子。為了便于計(jì)算，我們目前用在MRI和心電圖中的解碼模型會(huì)假設(shè)頭蓋骨是一個(gè)正球體。這在一定程度上是可行的，但有時(shí)，檢測(cè)出的腫瘤位置會(huì)有幾毫米的誤差。

　　更精確的攝影和MRI成像技術(shù)應(yīng)該對(duì)幾何誤差進(jìn)行補(bǔ)償，無(wú)論這些誤差來(lái)自潛在錯(cuò)誤源還是制造缺陷。

　　幸運(yùn)的是，深度學(xué)習(xí)給了我們借助數(shù)據(jù)校準(zhǔn)解碼算法的能力。

　　不同于“均碼”的解碼模型(例如卡爾曼濾波器)，我們可以針對(duì)每個(gè)受體或者測(cè)量?jī)x器進(jìn)行調(diào)整，從而表示出更復(fù)雜的偏差。如果相機(jī)鏡頭有刮痕，我們可以訓(xùn)練解碼軟件對(duì)變化了的幾何形態(tài)進(jìn)行補(bǔ)償。也就是說(shuō)，我們不再需要以極高的精度制造和排列傳感器，也就節(jié)約了大量資金。

　　某些情況下，我們可以在完全去除了硬件的情況下，讓算法去進(jìn)行補(bǔ)償。哥倫比亞大學(xué)的計(jì)算攝影學(xué)實(shí)驗(yàn)室開發(fā)了一種沒(méi)有鏡片的相機(jī)，也就是軟件定義成像(software-defined imaging)

　　離線AI

　　能在不聯(lián)網(wǎng)的情況下運(yùn)行AI算法，對(duì)要求低延遲(例如機(jī)器人、自動(dòng)駕駛汽車)或者沒(méi)有穩(wěn)定網(wǎng)絡(luò)連接(如旅行方面)的應(yīng)用來(lái)說(shuō)至關(guān)重要。

　　深度學(xué)習(xí)在這方面尤其合適。訓(xùn)練階段結(jié)束后，神經(jīng)網(wǎng)絡(luò)的前饋環(huán)節(jié)運(yùn)行得非常快，另外，把大型神經(jīng)網(wǎng)絡(luò)一直縮小到可以在智能手機(jī)上運(yùn)行也很簡(jiǎn)單，雖然準(zhǔn)確率上會(huì)有所損失。

　　Google在Google Translate應(yīng)用的離線拍照翻譯功能上已經(jīng)這么做了。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： Google大腦 深度學(xué)習(xí)

評(píng)論

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

新聞中心

Google大腦工程師詳解：深度學(xué)習(xí)技術(shù)能帶來(lái)哪些新產(chǎn)品？

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)