“深度學習”:人工神經回路大顯威力
最近1~2年,有一項技術受到了全世界人工智能研究人員的密切關注。這種新方法名叫“深度學習”,是一種讓計算機像人類一樣根據經驗采取行動的機器學習方式。
支撐互聯網社會的圖像識別和語音識別、有助于新藥開發的化合物活性預測——在此類技術角逐精度的大賽上,深度學習大幅改寫過去的紀錄,一次又一次贏得了勝利。
“真不相信精度能得到如此飛躍”,“結果太震撼了”。專家的驚嘆之聲不絕于耳。
深度學習是由在計算機上模擬人類神經回路的“神經元網絡”技術發展而來。
![]() |
![]() |
人腦在根據圖像判斷圖上物品的種類、根據手頭信息預測未來上面擁有優秀的能力。
神經元網絡是在計算機上把虛擬的神經元排列成層狀,模擬真正的神經細胞之間的電信號。借此實現大腦從各式各樣的數據中提取本質概念的功能。
深度學習的目的是把神經元“深化”到4層、5層,實現接近于大腦的性能。
神經元網絡研究的歷史悠久,可以追溯到1950年代。但是,由于增加神經元的層數后,會出現性能降低等問題,因此,研究一直處于興盛與衰退的反復交替過程。
然而,到了2000年代中期,美國的研究人員開發出了攻克這一課題的計算技術。再加上能夠處理大數據的計算機的進步,深度學習的研究拉開了序幕。
2012年6月,美國谷歌與美國斯坦福大學合作發表的成果成為了讓世界了解深度學習威力的開端。
谷歌把取自視頻網站“YouTube”的大量圖像輸入到了神經元網絡之中。結果,在沒有教授任何知識的情況下,計算機自然產生了“貓”的概念。
識別精度提高7成
谷歌的研究員杰夫·迪恩(Jeff Dean)解釋說:“我們的研究就像是給剛出生的嬰兒看大量的YouTube圖像。”下面,筆者就以該公司的研究為例,解釋一下深度學習的原理。
谷歌在計算機上制作了深達9層的神經元。第1層是“輸入層”,第2~8層是“隱藏層”,第9層是“輸出層”。
輸入層的神經元從輸入圖像上讀取各像素的值,把信號傳導至第2層的各個神經元。第2層的神經元根據某種規則,對第1層傳導來的信號進行轉換,然后輸出到第3層。在第3層到輸出層之間,輸出信號按照同樣的步驟,逐層向下傳遞。
重點是在輸入每一幅圖像時,各神經元的連接方式都會發生細微的改變。向神經元網絡輸入圖像后,各神經元在接收信號,進行轉換之時,相關的參數將得到調整,使整體的信號傳導方式發生改變。也就是網絡慢慢得到“訓練”。
在谷歌的研究之中,參數約為10億個,數量相當龐大。該公司向如此巨大的網絡輸入了從1000萬個YouTube視頻中截取的圖像。通過1.6萬個CPU(中央運算處理裝置)并用的大規模計算,耗費1周時間實施了訓練。
訓練結束后,神經元網絡的內部形成了不可思議的構造。各神經元會分別對不同的特定種類輸入信號做出特別強烈的反應(放電)。
這與人腦內的神經細胞對人的相貌、物體等特定物體和概念做出反應并放電的原理相同。也就是說,人通過學習和經驗形成的神經回路構造在計算機中得到了重現。
各神經元識別的對象因層的深度而異。靠近輸入層的第2層的神經元對圖像中的邊緣、彎曲等單純的形狀和概念做出反應。隨著向第3層、第4層的不斷深入,神經元捕捉的概念將愈發高深、抽象。在輸入動物面部的圖像時,這些層負責識別眼睛、耳朵等構造,以及面部整體。
根據谷歌的研究,位于最后的輸出層的1個神經元已經可以自然地識別出貓臉。在看到包含貓臉的圖像后,這個神經元的反應最為強烈。
當然,可以識別的并不只是貓。人、汽車、長頸鹿等各種事物都可以進行識別。包括人類難以區分的鰩和蝠鲼在內,在對大約2萬個種類進行識別精度調查后,結果顯示,識別率達到了16%,比過去的最高紀錄高出了約7成。
谷歌已經把深度學習的技術運用到了該公司的語音識別服務之中。今后還考慮在圖像識別和視頻搜索等用途投入實用。谷歌的迪恩充滿期待地表示,“計算機與人類的新式人機對話將成為可能”。
深度學習的目的是把神經元“深化”到4層、5層,實現接近于大腦的性能。
神經元網絡研究的歷史悠久,可以追溯到1950年代。但是,由于增加神經元的層數后,會出現性能降低等問題,因此,研究一直處于興盛與衰退的反復交替過程。
然而,到了2000年代中期,美國的研究人員開發出了攻克這一課題的計算技術。再加上能夠處理大數據的計算機的進步,深度學習的研究拉開了序幕。
2012年6月,美國谷歌與美國斯坦福大學合作發表的成果成為了讓世界了解深度學習威力的開端。
谷歌把取自視頻網站“YouTube”的大量圖像輸入到了神經元網絡之中。結果,在沒有教授任何知識的情況下,計算機自然產生了“貓”的概念。
識別精度提高7成
谷歌的研究員杰夫·迪恩(Jeff Dean)解釋說:“我們的研究就像是給剛出生的嬰兒看大量的YouTube圖像。”下面,筆者就以該公司的研究為例,解釋一下深度學習的原理。
谷歌在計算機上制作了深達9層的神經元。第1層是“輸入層”,第2~8層是“隱藏層”,第9層是“輸出層”。
輸入層的神經元從輸入圖像上讀取各像素的值,把信號傳導至第2層的各個神經元。第2層的神經元根據某種規則,對第1層傳導來的信號進行轉換,然后輸出到第3層。在第3層到輸出層之間,輸出信號按照同樣的步驟,逐層向下傳遞。
重點是在輸入每一幅圖像時,各神經元的連接方式都會發生細微的改變。向神經元網絡輸入圖像后,各神經元在接收信號,進行轉換之時,相關的參數將得到調整,使整體的信號傳導方式發生改變。也就是網絡慢慢得到“訓練”。
在谷歌的研究之中,參數約為10億個,數量相當龐大。該公司向如此巨大的網絡輸入了從1000萬個YouTube視頻中截取的圖像。通過1.6萬個CPU(中央運算處理裝置)并用的大規模計算,耗費1周時間實施了訓練。
訓練結束后,神經元網絡的內部形成了不可思議的構造。各神經元會分別對不同的特定種類輸入信號做出特別強烈的反應(放電)。
這與人腦內的神經細胞對人的相貌、物體等特定物體和概念做出反應并放電的原理相同。也就是說,人通過學習和經驗形成的神經回路構造在計算機中得到了重現。
各神經元識別的對象因層的深度而異。靠近輸入層的第2層的神經元對圖像中的邊緣、彎曲等單純的形狀和概念做出反應。隨著向第3層、第4層的不斷深入,神經元捕捉的概念將愈發高深、抽象。在輸入動物面部的圖像時,這些層負責識別眼睛、耳朵等構造,以及面部整體。
根據谷歌的研究,位于最后的輸出層的1個神經元已經可以自然地識別出貓臉。在看到包含貓臉的圖像后,這個神經元的反應最為強烈。
![]() |
在美國谷歌的研究中,讓識別貓的神經元做出了最強反應的貓的頭像 |
當然,可以識別的并不只是貓。人、汽車、長頸鹿等各種事物都可以進行識別。包括人類難以區分的鰩和蝠鲼在內,在對大約2萬個種類進行識別精度調查后,結果顯示,識別率達到了16%,比過去的最高紀錄高出了約7成。
谷歌已經把深度學習的技術運用到了該公司的語音識別服務之中。今后還考慮在圖像識別和視頻搜索等用途投入實用。谷歌的迪恩充滿期待地表示,“計算機與人類的新式人機對話將成為可能”。
超越人類的未來預測
人腦包含著數以千億計的神經細胞。今后,隨著深度學習的規模和精度的提升,計算機將能夠達到人腦的什么程度呢?
東京大學研究生院工學系研究科副教授松尾豐指出,“人腦最大的優勢在于擅長預測和推測。通過使用深度學習,對于未來的高精度預測或許將成為現實”。
人類擁有優秀的預測能力,能夠根據物體的外觀,判斷其能否食用,或是根據與某人相關的知識,預測此人的年收入。如果把這些特征與計算機的處理性能相結合,超越人類的高精度未來預測將開辟一條嶄新的道路。
松尾副教授等人目前正在研究根據微博客“Twitter”上的發言內容,來提高推測發言者性格的精度。今后還打算使用超級計算機等設備,把深度學習運用于未來經濟的預測。
深度學習不同于傳統技術,輸入的數據無需事先進行人工篩選。因此,只需輸入報紙刊登的企業財務數據、各種各樣的市場數據、互聯網的經濟信息等雜亂的信息,就有望實現準確的經濟預測。
真實的大腦中存在著功能各異的多個部位,在這些部位之間,電信號的交換非常復雜。深度學習目前還不能完全重現。
但日本產業技術綜合研究所智能系統研究部門的高級主任研究員麻生英樹說:“開發像人腦一樣提取數據內在本質概念的技術非常重要。”而且,這種技術的應用領域也十分廣泛,所以深度學習的研究熱度估計還會持續下去。
人腦包含著數以千億計的神經細胞。今后,隨著深度學習的規模和精度的提升,計算機將能夠達到人腦的什么程度呢?
![]() |
東京大學研究生院工學系研究科副教授松尾豐指出,“人腦最大的優勢在于擅長預測和推測。通過使用深度學習,對于未來的高精度預測或許將成為現實”。
人類擁有優秀的預測能力,能夠根據物體的外觀,判斷其能否食用,或是根據與某人相關的知識,預測此人的年收入。如果把這些特征與計算機的處理性能相結合,超越人類的高精度未來預測將開辟一條嶄新的道路。
松尾副教授等人目前正在研究根據微博客“Twitter”上的發言內容,來提高推測發言者性格的精度。今后還打算使用超級計算機等設備,把深度學習運用于未來經濟的預測。
深度學習不同于傳統技術,輸入的數據無需事先進行人工篩選。因此,只需輸入報紙刊登的企業財務數據、各種各樣的市場數據、互聯網的經濟信息等雜亂的信息,就有望實現準確的經濟預測。
真實的大腦中存在著功能各異的多個部位,在這些部位之間,電信號的交換非常復雜。深度學習目前還不能完全重現。
但日本產業技術綜合研究所智能系統研究部門的高級主任研究員麻生英樹說:“開發像人腦一樣提取數據內在本質概念的技術非常重要。”而且,這種技術的應用領域也十分廣泛,所以深度學習的研究熱度估計還會持續下去。
評論