新聞中心

        EEPW首頁(yè) > 嵌入式系統(tǒng) > 業(yè)界動(dòng)態(tài) > Google TPU芯片效能超越CPU與GPU?

        Google TPU芯片效能超越CPU與GPU?

        作者: 時(shí)間:2017-04-20 來(lái)源:eettaiwan 收藏

          網(wǎng)路巨擘日前指出,該公司的Tensor處理器()在機(jī)器學(xué)習(xí)的測(cè)試中,以數(shù)量級(jí)的效能優(yōu)勢(shì)超越英特爾(Intel)的Xeon處理器和Nvidia的繪圖處理器(GPU)。在一份長(zhǎng)達(dá)17頁(yè)的報(bào)告中,深入剖析其和測(cè)試基準(zhǔn)顯示比目前的商用芯片更快至少15倍的速度,并提供更高30倍的效能功耗比(P/W)。

        本文引用地址:http://www.104case.com/article/201704/358227.htm

          去年五月,宣布其ASIC設(shè)計(jì)是為了加快各種應(yīng)用在其納米中心服務(wù)器的推論作業(yè)。現(xiàn)在,該公司將在今年6月的一場(chǎng)電腦架構(gòu)大會(huì)中,透過(guò)一篇論文首度公開(kāi)對(duì)于此芯片及其效能的深入研究。

          這份報(bào)告提供了有關(guān)加速器與Google多元神經(jīng)網(wǎng)路工作負(fù)載的深度觀察,并建議工程師在此快速成長(zhǎng)的領(lǐng)域中投注更多的學(xué)習(xí)。

          曾帶領(lǐng)超過(guò)70位工程師團(tuán)隊(duì)設(shè)計(jì) 的知名硬件工程師Norman P. Jouppi說(shuō):“我們希望聘請(qǐng)一些優(yōu)秀的工程師,并讓他們了解我們正在進(jìn)行高品質(zhì)的工作,同時(shí)也讓云端客戶(hù)知道我們的實(shí)力。”

          該計(jì)劃的其中一位負(fù)責(zé)人員是美國(guó)加州柏克萊大學(xué)(U.C. Berkeley)退休教授David Patterson,他同時(shí)也是一位資深的處理器架構(gòu)師,在日前一場(chǎng)矽谷的工程師聚會(huì)中介紹了這份報(bào)告。Google還在部落格中發(fā)布Jouppi所撰寫(xiě)關(guān)于此芯片的文章。

          如今Google的納米中心仍采用此芯片。不過(guò),關(guān)于該芯片使用的范圍與未來(lái)計(jì)劃加強(qiáng)的部份,Jouppi并不愿透露任何細(xì)節(jié)。

          這款40W功率的TPU是一款采用28納米制程、70MHz時(shí)脈運(yùn)算的芯片,專(zhuān)為加速Google TensorFlow 演算法而設(shè)計(jì)。其主要的邏輯單元包含65,536個(gè)8位元的乘積累加運(yùn)算單元和24MB快取存儲(chǔ)器,并提供每秒92兆次運(yùn)算速度。

          在2015年采用Google機(jī)器學(xué)習(xí)芯片而進(jìn)行的測(cè)試中,相較于英特爾(Intel)的Haswell服務(wù)器處理器(CPU)和Nvidia的K80繪圖處理器(GPU),采用TPU時(shí)的運(yùn)作速度提高了15到30倍,效能提高了30到80倍。該報(bào)告中指出:“TPU的相對(duì)增量效能功耗比為41到83——這就是我們?yōu)槭裁纯椭苹疉SIC的原因,它讓TPU比GPU高出25到29倍的的效能功耗比。”

          2015年的測(cè)試使用了英特爾 22納米制程的18核心Haswell E5-2699 v3 CPU,其時(shí)脈頻率(速度)為2.3GHz,熱設(shè)計(jì)功耗(TDP)為145W。Nvidia K80 GPU功耗為150W,時(shí)脈頻率最高到875MHz。

          TPU內(nèi)部揭密

          在該報(bào)告中提到,TPU所達(dá)到的數(shù)量級(jí)效能優(yōu)勢(shì),很少有別的廠商能做到,也可能讓TPU成為特定領(lǐng)域架構(gòu)的原型。預(yù)計(jì)接下來(lái)將會(huì)有許多追隨者,而使得標(biāo)準(zhǔn)更為提高。

          事實(shí)上,TPU的目標(biāo)不在于提高納米處理量,而是專(zhuān)注于達(dá)到7毫秒(ms)的延遲,使專(zhuān)用加速器發(fā)揮功效,因此,它舍棄了高吞吐量的多工通用處理器所需的許多元件,而用于執(zhí)行其他許多任務(wù)。

          但此ASIC芯片在能耗比的表現(xiàn)上不及英特爾和Nvidia的芯片。在10%的負(fù)載狀況下,TPU的最大功率消耗為88%。相形之下,K80在10%負(fù)載下消耗66%的功率,而英特爾Haswell的最大功耗為56%。

          Google解釋?zhuān)@是由于僅15個(gè)月的設(shè)計(jì)時(shí)程相對(duì)較短,使得TPU無(wú)法加入許多節(jié)能方面的功能。

          納米緩沖區(qū)約占TPU的37%,媒體存取控制(MAC)組合占30%。雖然TPU比起Nvidia GPU的尺寸更小、功耗更低,但其上的MAC數(shù)量卻是K80的25倍,芯片上存儲(chǔ)器容量則為其3.5倍。

          TPU搭載PCIe Gen3 x16匯流排,并提供256位元的內(nèi)部納米路徑。主機(jī)CPU將加速器視為浮點(diǎn)運(yùn)算處理器,透過(guò)PCIe匯流排傳達(dá)指令。

          TPU使用與GPU加速器相同的Tensorflow軟體,開(kāi)發(fā)人員可維持核心驅(qū)動(dòng)器的穩(wěn)定,必要時(shí)調(diào)整使用者空間的驅(qū)動(dòng)程式,以因應(yīng)不斷改變的應(yīng)用。

          Google發(fā)現(xiàn),持續(xù)增加的存儲(chǔ)器頻寬對(duì)于效能表現(xiàn)的影響最大。平均來(lái)說(shuō),加速時(shí)脈速度的效益不大,而當(dāng)MAC擴(kuò)增到512x512矩陣時(shí),加快時(shí)脈速度的效能還將微幅下降。

          該報(bào)告中指出,從2015年的測(cè)試以來(lái),英特爾已經(jīng)推出14納米CPU,Nvidia也推出16納米GPU了。然而,TPU也可能將其外部DDR3存儲(chǔ)器升級(jí)到像K80所使用的GDDR5存儲(chǔ)器。

          報(bào)告中指出:“未來(lái)的CPU與GPU在執(zhí)行推論時(shí)將會(huì)更快速。采用2015版GPU存儲(chǔ)器而重新設(shè)計(jì)的TPU將會(huì)提高兩倍到三倍的速度,而且比K80高出70倍、比Haswell更高200倍的效能功耗比。”

          Google宣稱(chēng)在英特爾CPU上執(zhí)行8位元運(yùn)算相當(dāng)辛苦。報(bào)告中提到:“我們?cè)局挥幸豢頒PU執(zhí)行8位元運(yùn)算的結(jié)果,因?yàn)橛行У厥褂闷銩VX2整數(shù)運(yùn)算指令,效果提升了3.5倍。”

          由于其采用納米處理量為導(dǎo)向的架構(gòu),即使是改良過(guò)的GPU要達(dá)到Google的 7nm延遲目標(biāo),仍然充滿挑戰(zhàn)。同時(shí),“這款TPU仍有很大的改進(jìn)空間,所以這不是一個(gè)容易達(dá)成的目標(biāo)。”

          開(kāi)發(fā)人員掌握多元化訊息

          該報(bào)告中提到,研究人員受到熱門(mén)的ImageNet比賽吸引,已經(jīng)變得過(guò)于投入卷積神經(jīng)網(wǎng)路(CNN)。現(xiàn)實(shí)世界的應(yīng)用采用更廣泛的神經(jīng)網(wǎng)路類(lèi)型,報(bào)告并強(qiáng)調(diào),多層感知(MLP)占Google AI開(kāi)發(fā)工作的61%。“雖然大部份的架構(gòu)師一直在加速CNN設(shè)計(jì),但這部份只占5%的工作負(fù)載。”

          “雖然CNN可能很常見(jiàn)于邊緣裝置,但卷積模型的數(shù)量還趕不上納米中心的多層感知(MLP)和長(zhǎng)短期存儲(chǔ)器(LSTM)。我們希望架構(gòu)師盡可能地加速M(fèi)LP和LSTM設(shè)計(jì),這種情況類(lèi)似于當(dāng)許多架構(gòu)師專(zhuān)注于浮點(diǎn)運(yùn)算效能時(shí),大部份的主流工作負(fù)載仍由整數(shù)運(yùn)算主導(dǎo)。”

          Jouppi說(shuō):“我們已經(jīng)開(kāi)始與一些大學(xué)合作,擴(kuò)大提供免費(fèi)模式。”但他并未透露內(nèi)容細(xì)節(jié)。

          這篇報(bào)告回顧了二十多年來(lái)神經(jīng)網(wǎng)路的相關(guān)納米,包括其競(jìng)爭(zhēng)對(duì)手——微軟(Microsoft)基于FPGA的Catapult計(jì)劃,加速了網(wǎng)路作業(yè)。最初的25W Catapult在200MHz時(shí)脈上運(yùn)作3,926個(gè)18位元MAC,并且以200MHz 時(shí)脈速度執(zhí)行5MB存儲(chǔ)器。Google表示,以Verilog語(yǔ)言設(shè)計(jì)的韌體比起使用TensorFlow軟體來(lái)說(shuō)效率更低。

          TPU計(jì)劃于2013年開(kāi)始,當(dāng)時(shí)并以FPGA進(jìn)行了試驗(yàn)。該報(bào)告中提到:“我們舍棄FPGA,因?yàn)槲覀儺?dāng)時(shí)發(fā)現(xiàn)它和GPU相比,在效能上不具競(jìng)爭(zhēng)力,而TPU比起GPU在相同速度或甚至更快的速度下,可以達(dá)到更低的功耗。”

          盡管二十多年來(lái),神經(jīng)網(wǎng)路終于在最近從商用市場(chǎng)起飛了。

          Jouppi說(shuō):“我們所有人都被這蓬勃發(fā)展的景象嚇到了,當(dāng)初并未預(yù)期到會(huì)有如此大的影響力。一直到五、六年以前,我都還一直抱持懷疑態(tài)度…而今訂單開(kāi)始逐月增加中。”

          相較于傳統(tǒng)途徑,深度神經(jīng)網(wǎng)路(DNN)已經(jīng)讓語(yǔ)音辨識(shí)的錯(cuò)誤率降低了30%,這是二十年來(lái)最大的進(jìn)步。這讓ImageNet影像辨識(shí)競(jìng)賽中的錯(cuò)誤率從2011年的26%降至3.5%。

          該報(bào)告結(jié)論還提到,“神經(jīng)網(wǎng)路加速器存在的理由在于效能,而在其演進(jìn)過(guò)程中,如何達(dá)到良好的直覺(jué)判斷,目前還為時(shí)過(guò)早。”



        關(guān)鍵詞: Google TPU

        評(píng)論


        相關(guān)推薦

        技術(shù)專(zhuān)區(qū)

        關(guān)閉
        主站蜘蛛池模板: 太仆寺旗| 杭锦后旗| 新乡县| 江门市| 霍山县| 杭锦旗| 米脂县| 揭东县| 沧源| 南康市| 南丹县| 荃湾区| 杭锦后旗| 黄梅县| 汉源县| 德令哈市| 汾阳市| 五寨县| 定州市| 左云县| 通榆县| 罗城| 宣化县| 鲜城| 临汾市| 滦平县| 类乌齐县| 高清| 沂南县| 南京市| 孟连| 衡山县| 黑龙江省| 会东县| 遂川县| 丽江市| 昌黎县| 樟树市| 洛阳市| 弥渡县| 五家渠市|