新聞中心

        EEPW首頁 > 嵌入式系統 > 業界動態 > Nature重磅:Hinton、LeCun、Bengio三巨頭權威科普深度學習

        Nature重磅:Hinton、LeCun、Bengio三巨頭權威科普深度學習

        作者: 時間:2016-12-28 來源:網絡 收藏

          一個典型的卷積網絡架構的每一層(水平)輸出(不是過濾器)應用到一個薩摩耶犬的圖像(圖2左下方,RGB輸入(紅綠藍),下方右側)。 每一個長方形圖片都是一張對應于學習到的輸出特征的特征地圖,這些特征可以在圖片的各個位置被偵測到。信息流是從下往上的,低級的特征充作導向性邊際檢測因子( edge detectors),每個輸出圖像類都會被計算出一個分值。ReLU,整流線性單元。

        本文引用地址:http://www.104case.com/article/201612/342188.htm

          架構由簡單模組多層堆疊而成,全部(或絕大部分)模組都從事學習,大部分會計算非線性的輸入輸出映射。堆疊架構中的每個模組都會轉換它的輸入,同時增強可選擇性和所呈現狀態的一致性。 通過多個非線性層面(例如,深度5-20層),系統可以實現對于輸入數據的極其微小細節的敏感性功能 --- 例如,區別開白色的狼和薩摩耶犬 --- 并且對于較大的無關變量會不敏感(例如,主體周圍的環境、姿勢、光照條件和周圍物體。)

          訓練多層架構的反向傳播算法

          從最早的模式識別開始,研究者們就一直試圖用可訓練的多層網絡代替人工設計特征,盡管這種解決方案很簡單,直到20世紀80年代中期,它才得到人們的廣泛認可。事實證明,多層架構可以通過簡單的隨機梯度下降法得以訓練。只要模組是由它們的輸入值及其內部權重構成的相對平滑的函數(relatively smooth functions),人們就可以使用反向傳播算法來計算梯度。20世紀70至80年代,幾個不同的研究小組分別發現這一方法確實可行、有用。

          計算一個目標函數關于一個多層堆疊模組的權重梯度的反向傳播過程,只不過是導數鏈式法則的一個實際應用。其中關鍵之處在于,關于模組輸入值的函數的導數(或梯度),可以借助關于該模組的輸出值(或序列模組的輸入值)的梯度反向計算出來(圖1)。反向傳播方程可在所有模組中傳播梯度時被反復應用,從頂部(top)(神經網絡產生預測的那一層)輸出開始,一直到底部(bottom)(被接收外部輸入的那一層)。這些梯度一經計算,就可直接計算出關于每個模組權重的梯度。

          的許多應用,都會使用前饋神經網絡架構( feedforward neural network architectures)(圖1)——該架構可學習將一個固定大小的輸入映射到(例如,一幅圖像)到一個固定大小的輸出上(例如,每種分類的概率)。從一層到下一層,單元組計算其前一層輸入的加權總和,并通過一個非線性函數輸出結果。目前,最受歡迎的非線性函數是整流線性單元(ReLU),一個簡單的半波整流器f(z) = max(z, 0)。在過去的幾十年里,神經網絡使用的是更平滑的非線性,比如,tanh(z)或1 /(1 + exp(?z)),但ReLU在多層網絡中的學習速度通常更快,可允許在沒有無監督預訓練(without unsupervised pre-training)的情況下進行深度監督網絡訓練。不在輸入或輸出層中的單元通常被稱為隱層單元(hidden units)。隱層可被看作是以非線性方式變換輸入,從而使所有類別在最后一層變得線性可分( linearly separable by the last layer)(圖1)。

          20世紀90年代末,神經網絡和反向傳播被機器學習社區大量遺棄,同時也被計算機視覺和語音識別領域忽略。人們普遍認為,學習有用的、多層級的、幾乎不靠先驗知識的特征提取器并不現實可行。尤其是,人們通常認為簡單的梯度下降法會深陷局部極小的泥潭——在這種權重配置當中,除非進行大的改動,否則很難降低平均誤差。

          實踐中,對大型網絡而言,局部極小幾乎不構成問題。無論初始條件如何,系統基本總能得到質量非常相似的解決方案。最近的理論和實證研究結果均有力地表明,總的來說,局部極小不是一個嚴重問題。相反,解空間( landscape)充滿了大量梯度為0的鞍點( saddle points ),且在多數維度中表面向上彎曲,少數維度中表面向下彎曲。分析結果似乎表明,向下彎曲的鞍點在整體中占比相對較小,但這些鞍點的目標函數值大多相近。因此,算法陷入這些鞍點(不能繼續尋優),無關緊要。

          2006年前后,加拿大高級研究所(CIFAR)聚集了一批研究人員,他們重燃了人們對深度前饋網絡的興趣。這些研究人員引入無監督學習程序——無需標記數據便可創建特征檢測器層。各層特征檢測器的學習目標便是在下一層重構或模擬特征檢測器(或原始輸入)的活動。利用這種重構學習目標來「預訓練(pre-training)」幾層復雜度遞增的特征檢測器,深層網絡的權重可以被初始化為合理值。接著,最終層的輸出單元可被添加到網絡頂端,整個深度系統可被微調至使用標準的反向傳播。在識別手寫數字或檢測行人時,特別是當標記的數據量非常有限的時候,這一程序非常有效。

          這種預訓練的方法的首次重要應用是在語音識別上,這之所以可行歸功于便于編程的GPUs的誕生,它讓研究人員可以用10到20倍的速度訓練神經網絡。2009年,這個方法被用來計算一段聲音采樣中提取短時系數窗口對應的一系列概率值,這些概率值反映出由窗口中幀表示語音各個段落的可能性。在小詞匯表的標準語音識別測試上,這種方法的訓練效果打破紀錄,很快它又發展到打破大詞匯表的標準語音測試紀錄。

          到2012年,2009年以來的各種深度網絡一直的得到多個主要語音研究小組持續開發并被布局在安卓手機上。對于較小數據集來說,無監督預訓練有助于防止過擬合( overfitting), 當標注數據樣本小( number of labelled examples is small)或需要遷移( in a transfer setting )——有很多源領域的標注數據樣本但缺少目標領域的標注數據樣本——的時候,深度網絡的泛化( generalization)效果顯著提升。重新獲得認識,人們發現,預訓練階段只是小規模數據集的必需品。

          然而,還有一種特殊類型的深度前饋網絡( deep feedforward network),不僅更易訓練而且泛化能力要比那些相鄰兩層完全相連的神經網絡強大很多。這就是卷積神經網絡 (ConvNet)。 在神經網絡「失寵 」的日子里,卷積神經網絡在實踐運用中獲得許多成功,最近已被計算機視覺領域廣泛采用。

          卷積神經網絡

          卷積神經網絡最初是用來處理多維數組數據,比如,一張由三個2D數組組成、包含三個彩色通道像素強度的彩色圖像。大量的數據模式都是多個數組形式:1D用來表示信號和序列信號包括人類語言;2D用來表示圖片或聲音;3D代表視頻或有聲音的圖像。卷積神經網絡利用自然信號特征的核心理念是:局部連接(local connections),權重共享,池化(pooling)和多網絡層的使用。

          典型的卷積神經網絡的架構(圖二)包括一系列階段:最初的幾個階段由卷積層和池化層組成,卷積層的單元被組織到特征圖(feature map)中,每個單元通過一組被稱作濾波器(filter bank)的權值被連接到前一層的特征圖的局部數據塊。接下來,得到的局部加權和會傳遞至一個非線性函數,例如ReLU。同一個特征圖中的所有單元共享相同的濾波器,不同特征圖使用不同濾波器。采用這種架構有兩方面的原因。首先,在諸如圖像這樣的數組數據中,數值與附近數值之間通常是高度相關的,容易生成易被探測到的局部特征(motif)。其次,圖像和其他類似信號的局部統計特征通常又與位置無關,易言之,出現在某處的某個特征也可能出現在其他任何地方,因此,不同位置的單元會共享同樣的權值并且可以探測相同模式。數學上,由一個特征圖完成的過濾操作是一個離線的卷積,卷積神經網絡由此得名。

          和卷積層用來探測前一層中特征之間的局部連接不同,池化層的作用則是對語義相似的特征進行合并。由于構成局部主題的特征之間的相對位置關系不是一成不變的,可以通過粗粒度檢測每個特征的位置來實現較可靠的主題識別。一個池化層單元通常會計算一個或幾個特征圖中一個局部塊的最大值,相鄰的池化單元則會移動一列或一行從小塊讀取輸入,這種設計不僅減少了數據表征需要的維數,而且也能對數據小規模的偏移、扭曲保持不變。兩到三個卷積層,非線性層和池化層被疊加起來,后面再加上更多的卷積和全連接層。在卷積神經網絡的反向傳播算法和在一般深度網絡上一樣簡單,能讓所有濾波器中的權值得到訓練。

          多數自然信號都是分級組合而成,通過對較低層信號組合能夠獲得較高層的信號特征,而深度神經網絡充分利用了上述特性。在圖像中,線條組合形成圖案,圖案形成部件,部件組成物體。類似的層次結構存在于由聲音到電話中的語音及文本形成過程,音素組成音節,音節組成單詞,單詞組成句子。當輸入數據在前一層中的位置有變化的時候,池化操作讓這些特征表示對變化具有魯棒性。

          卷積神經網絡中的層次的卷積和匯聚的靈感直接來源于視覺神經科學中的簡單細胞和復雜細胞的經典概念,并且其整體架構讓人想起視覺皮層腹側通路的LGN-V1-V2-V4-IT層次結構。當向卷積神經網絡模型和猴子同時展示相同的畫面時,卷積神經網絡的高級單元被激活,解釋了猴子顳下皮層隨機設置的160個神經元的變化。卷積神經網絡有著神經認知機的基礎,兩者的體系結構有些類似,但是,卷積神經網絡沒有諸如反向傳播的那種端對端的監督學習算法。原始的1D卷積神經網絡被稱為「延時神經網絡(time-delay neural net )」,用于識別語音和簡單的單詞。

          早在20世紀90年代初,卷積網絡就已有非常廣泛的應用 ,最開始延時神經網絡被用在語音識別和文檔閱讀上。文本閱讀系統使用了受過訓練的延時神經網絡以及一個實現了語言約束的概率模型。到20世紀90年代末,該系統能夠讀取美國超過十分之一的支票。隨后,微軟發明了許多基于卷積神經網絡的光學字符識別和手寫識別系統。卷積神經網絡在20世紀90年代初就被嘗試用于包括臉、手、面部識別的自然圖像目標檢測中。

          使用深層卷積網絡進行圖像識別

          從21世紀初開始,卷積神經網絡就被成功用于檢測、分割和物體識別以及圖像各區域。這些應用都使用了豐富的標簽數據,比如,交通標志識別、生物圖像(特別是神經鏈接組學方面)分割、面部探測、文本、行人和自然圖像中的人體的檢測。近些年來,卷積神經網絡的一項重要成功應用就是人臉識別。

          值得注意的是,圖像可以在像素級別上被標記,這樣就能被用于諸如自主移動機器人(autonomous mobile robots)和無人駕駛汽車等技術中。像Mobileye和NVIDIA 這些公司正在將這些基于卷積神經網絡的方法應用于即將面世的汽車視覺系統中。其他重要的應用程序涉及到自然語言理解和語音識別。

          盡管取得了這些成就,但在2012年ImageNet競爭之前,卷積神經網絡在很大程度上并未獲得主流計算機視覺和機器學習團體的青睞。當深層卷積網絡被應用于來源于包含1000個不同類型約100萬個圖像的數據集中,它們取得了驚人的成果,錯誤率僅是當時最佳方法的一半。該成功源于高效利用了GPUs和ReLUs、一項新的被稱為「dropout 」的正規化技術( regularization technique )以及分解現有樣本產生更多訓練樣本的技術。成功給計算機視覺領域帶來一場革命。如今,卷積神經網絡幾乎覆蓋所有識別和探測任務,在有些任務中,其表現接近人類水平。最近一個令人震驚的例子,利用卷積神經網絡結合遞歸網絡模塊來生成圖像標題( image captions )(如圖3)。

            

          圖3 |從圖像到文本



        關鍵詞: Nature 深度學習

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 林州市| 石首市| 大城县| 丰顺县| 凤冈县| 涞源县| 葵青区| 尉氏县| 鹿泉市| 南昌县| 门源| 来安县| 高阳县| 东台市| 江北区| 民和| 高邑县| 乌拉特后旗| 鄂伦春自治旗| 邻水| 晋宁县| 织金县| 宜昌市| 蒙阴县| 郴州市| 镇江市| 盐池县| 潞西市| 日照市| 新平| 福贡县| 屏南县| 油尖旺区| 中山市| 吉林市| 太康县| 交口县| 个旧市| 平山县| 余江县| 伊川县|