新聞中心

        EEPW首頁 > 業界動態 > 2016人工智能技術發展進程梳理

        2016人工智能技術發展進程梳理

        作者: 時間:2017-02-04 來源:CSDN 收藏
        編者按:2016年是“智能駕駛元年”、“人工智能硬件元年”、“增強學習元年”、“嵌入式人工智能元年”。算法和模型創新、硬件提速、應用創新這三駕馬車,將帶領我們高速奔向更加智能的時代。

         FPGA 崛起

        本文引用地址:http://www.104case.com/article/201702/343473.htm

          FPGA(Field-Programmable Gate Array)是現場可編程門陣列的英文縮寫。簡單來說,FPGA就像是一塊空白的數字電路,開發者可以通過編寫硬件代碼的方式來設計一個數字電路,代碼編寫完成后,類似軟件代碼中的編譯過程,FPGA的綜合器會對代碼進行綜合、布局布線,之后會生成一個二進制文件,將這個二進制文件燒寫到FPGA后,原本空白的FPGA就變成了開發者設計的電路,這就是“現場”和“可編程”的含義。同時,FPGA可以反復擦寫,通過燒寫不同的二進制文件來實現不同的功能。因此,FPGA是介于專用集成電路(ASIC)和通用處理器(CPU)之間的一種硬件。

          Xilinx和Altera是世界上最大的兩家FPGA廠商,共同占據了將近90%的市場份額。在2015年,Intel以167億美元完成了對Altera的并購,并購后的Altera成為Intel可編程技術事業部。此次并購足以見得Intel非??粗谾PGA在其生態體系中的作用,可以從中看到Intel攜手FPGA進軍數據中心的決心。圖14為Altera的FPGA芯片。

          歷史上的FPGA作為“膠合”邏輯廣泛應用于信號處理、ASIC驗證等領域。所謂膠合邏輯即兩個硬件模塊進行互聯時常常發現硬件接口、通信協議不匹配,這時在中間增加一級FPGA作為協議轉換器,就能實現兩個模塊之間通信和資源共享,而不需要修改原有模塊的軟硬件設計。iPhone 7里面集成的Lattice FPGA(ICE5LP4K)就是這樣的角色。


        2016人工智能技術發展進程梳理

          圖14 Altera FPGA近照

          隨著工藝提升,集成度不斷加大,FPGA內部的DSP資源也逐漸變多、變強,甚至超過了普通的CPU、GPU,這時利用FPGA做計算加速也順理成章。FPGA具有高度可定制性、細粒度并行性,低功耗等特點,吸引了互聯網企業的關注,越來越多的人在研究如何在數據中心中發揮FPGA的優勢。受硬件資源限制,FPGA主要使用低精度(8-bit和16-bit)定點計算,所以一般都是面向神經網絡預測而非訓練。

          值得注意的是,NVIDIA的低功耗GPU Tesla P4也專門面向預測,與FPGA形成了針鋒相對的形勢,在多種性能指標中P4也一騎絕塵碾壓大多數FPGA器件。使用FPGA而非GPU的一個理由是,FPGA硬件連線可以定制,GPU架構是死的,升級硬件時需要重復投入資金,不像FPGA那樣可以更新硬件連線來實現硬件升級。

          FPGA編程絕非普通軟件開發人員可以勝任。它涉及指定芯片門級布局。最近OpenCL和其他編譯器技術引入,使得FPGA設計難度大大降低。

          微軟Azure

          微軟在Azure上采用FPGA加速機器學習和其他需要大量吞吐的應用和服務已有五年多時間。最早在2011年發起了Catapult項目。第一次FPGA落地項目為Bing搜索排序算法,將吞吐提升了兩倍同時功耗降低至10%。利用云的巨大體量攤低成本,利用FPGA任意定制特性滿足各種各樣的應用場景,硬件可以實時升級。

          最初的Catapult服務器是雙路16核Xeon處理器+64GB RAM和一塊Altera Stratix V FPGA板卡,2 TB SATA磁盤和兩塊480GB美光SSD。

          8月份,微軟發布了Catapult v2,特點是FPGA連接到CPU、主存和網絡。這樣,FPGA可以直接與另一塊FPGA通信,而不需要經過CPU中轉。該設計更適合水平擴展。除了加速AI應用,FPGA也用于加速Azure的25G網絡設施,根據微軟報告,FPGA可以實現1/10延遲。由于可動態配置,FPGA可以同時加速網絡和機器學習應用。

          9月27日,微軟CEO Satya Nadella與工程師Doug Burger在亞特蘭大Ignite會議上聯合宣布每個Azure云服務器都安裝了Altera FPGA(Catapult 2)。在演示環節,一個裝備4塊FPGA的服務器僅需2.6秒就能把1440頁著名的俄語小說《戰爭與和平》翻譯為英語,而一個24核CPU服務器完成相同任務需要19.9秒,功耗高60W。展示用的FPGA服務器使用10核CPU和4塊基于Altera Stratix V D5 FPGA加速卡,其功耗為30W,峰值處理性能為7.9TOPS。使用同樣的4塊FPGA服務器將英文版Wikipedia全部30億文本翻譯為另一種語言需要4個小時,而Azure整個云都配備了FPGA,當Burger將幾乎全部Azure計算能力(差不多1 EOPS)投入計算時,耗時不到0.1秒。


        2016人工智能技術發展進程梳理

          圖15 Azure FPGA加速文本翻譯展示

          Xilinx收購Auviz Systems

          Xilinx于9月宣布收購在卷積神經網絡(CNN)領域有獨到研究的Auviz Systems公司,這家成立僅三年的公司,專注于數據中心和嵌入式系統的加速應用,擅長機器學習、視覺算法和FPGA實現。

          Auviz Systems提供基于FPGA的中間件IP,以減少應用程序的功耗。對于需要以低功耗實現高性能的應用,他們提供了FPGA庫如AuvizCV, AuvizLA,AuvizDNN以及定制加速器和服務。而針對FPGA,Auviz庫支持用C/C++或者OpenCL平臺進行編程。

          實際上,最近在領域熱門的本土新創公司深鑒科技也采用賽靈思的FPGA完成卷積處理,深鑒科技的創始人汪玉在Xilinx大學計劃年會上發言時特別強調了FPGA在卷積神經網絡實現上的優勢。深鑒成立于2016年3月,DeePhi提供軟硬件協同設計方案,實現從模型到硬件的完整工作流。


        2016人工智能技術發展進程梳理

          圖16 AuvizDNN加速CNN

          小結:如果說只有大公司才有足夠的財力、人力、物力去設計專用芯片,那么對于大多數中小企業而言,FPGA是更好的選擇,設計相對靈活,成本投入更低,投放市場時間(Time-to-Market)更短。在硬件的舞臺上,無論Hot Chips、 SC16還是ISSCC,我們看到越來越多的FPGA解決方案,呈現百花齊放百家爭鳴的盛景。

          嵌入式人工智能崛起

          前面論述的絕大多數軟硬件都是在服務器端的,無論Google TPU還是Azure上的FPGA,更不用說NVIDIA DGX-1這樣的龐然大物。這些“高大上”的概念讓普通人敬而遠之。而與我們生活息息相關的大多數場景都與移動設備、嵌入式設備相連。值得注意的是,今年嵌入式設備上的人工智能也成為一道亮麗的風景。眾多初創企業投入了這股熱潮,努力將人工智能與具體用戶需求結合,創造更具性價比的智能產品。今年ILSVRC比賽冠軍商湯科技和海康威視,主要產品都是嵌入式設備,從而也為人工智能真正扎根到廣大人民群眾中間做好了準備,相信不出幾年我們身邊將會出現越來越多智能設備像智能手環、智能家居、智能健康設備、智能自行車、智能汽車、智能秘書幫我們完成細致而瑣碎的工作。

          TensorFlow

          的靈魂就是TensorFlow。一年前,Google就將TensorFlow完全開源。半年前,Google發布了專門加速TensorFlow的硬件TPU。在短短的一年內,它的提交就超過了10000次,Google大腦部門做了許多性能改進:增加了對分布式培訓的支持,支持從iOS到樹莓派(Raspberry Pi)平臺,與廣泛使用的Hadoop/Spark大數據基礎設施集成;發布了領先的圖像分類模型Inception;目前是最流行的機器學習項目,廣泛用于語音識別、圖像識別、自然語言處理等多項機器學習和深度學習領域。

          TensorFlow是第一個可以在iOS、Android設備和樹莓派等移動設備/嵌入式設備上面運行的機器學習框架。這樣可以在有攝像頭的手機上運行TensorFlow的Inception分類器或自定義的分類器,只要把攝像頭對準你希望做分類的東西,TensorFlow就會告訴你它認為這是什么。

          Cartographer

          Google在10月8日宣布開源Cartographer,這是一個ROS系統支持的2D和3D同步定位與制圖技術(SLAM,simultaneous localization and mapping)庫。SLAM是眾多自動駕駛平臺的重要組件,比如自動駕駛汽車、倉庫中的自動叉車、掃地機器人、UAVs等。在產業界和學術界常見的傳感器配置上,Cartographer能實時建立全局一致的地圖。Google在官方聲明中提到,SLAM算法結合了來自多個傳感器的數據,比如LiDAR激光雷達傳感器、IMU慣性測量單元,還有來自多個攝像頭的數據。綜合這些龐雜的數據,得以計算傳感器及傳感器周圍的環境。Cartographer現已經支持Toyota HSR、TurtleBots、PR2、Revo LDS這幾個機器人平臺。

          Caffe2Go

          Facebook于11月8日宣布將深度學習系統Caffe2Go開源,可以完全運行在智能手機上,目的是讓開發者更容易接觸到人工智能。相比TensorFlow,晚了整整一年。

          為了可以在iOS和Android設備上高效地運行各種深度神經網絡,Facebook將用于圖像和視頻處理的AI模型壓縮了100倍。最終實現在某些手機上用不到二十分之一秒的時間完成AI預測過程。

          嵌入式設備并不總是獨立作戰,一些計算復雜度較高的任務會采用“云+端”的處理架構,一個例子是10月18日錘子手機新品發布會上演示的科大訊飛輸入法,通過語音輸入轉換為文字,準確率達97%,其背后是基于深度學習的語音識別系統,單純依靠移動端是難以實現的,即使實現了也會有諸如手機發燙、電池不夠用等問題,將任務合理分工,“云+端”協作完成復雜任務,可以大幅提升用戶體驗。

          小結:可以預見,將來會有更多具備人工智能功能的嵌入式設備和移動App,進一步拉近我們與人工智能距離,成為密不可分的知心朋友。或許有一天你幾乎無法分辨你的微信好友究竟是人,還是AI。


        上一頁 1 2 3 4 下一頁

        關鍵詞: 人工智能 AlphaGo

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 石台县| 宁远县| 陇川县| 苏尼特左旗| 九寨沟县| 内乡县| 云南省| 肇源县| 贡山| 邵东县| 伽师县| 崇明县| 吉安市| 东兴市| 东乡族自治县| 颍上县| 商城县| 新密市| 微山县| 金门县| 尉氏县| 长沙县| 海盐县| 福州市| 榆社县| 高台县| 喜德县| 沅江市| 泰来县| 清原| 宾阳县| 全椒县| 留坝县| 郁南县| 甘德县| 靖江市| 南雄市| 华阴市| 南平市| 遂昌县| 赣州市|