新聞中心

        EEPW首頁 > 業(yè)界動(dòng)態(tài) > 史上最大AI芯片誕生:462平方厘米、40萬核心、1.2萬億晶體管,創(chuàng)下4項(xiàng)世界紀(jì)錄

        史上最大AI芯片誕生:462平方厘米、40萬核心、1.2萬億晶體管,創(chuàng)下4項(xiàng)世界紀(jì)錄

        作者:曉查 時(shí)間:2019-08-22 來源:量子位 收藏

        本文經(jīng)AI新媒體量子位(公眾號(hào) ID: QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

        本文引用地址:http://www.104case.com/article/201908/403994.htm

        史上最大AI芯片誕生:462平方厘米、40萬核心,創(chuàng)下4項(xiàng)世界紀(jì)錄

        美國一家芯片公司Cerebras推出了史上最大,號(hào)稱“晶圓級(jí)引擎”(Cerebras Wafer Scale Engine,簡稱WSE)。

        WSE將邏輯運(yùn)算、通訊和存儲(chǔ)器集成到單個(gè)硅片上,是一種專門用于深度學(xué)習(xí)的芯片。它創(chuàng)下了4項(xiàng)世界紀(jì)錄:

        晶體管數(shù)量最多的運(yùn)算芯片:總共包含1.2萬億個(gè)晶體管。雖然三星曾造出2萬億個(gè)晶體管的芯片,卻是用于存儲(chǔ)的eUFS。

        芯片面積最大:尺寸約20厘米×23厘米,總面積46,225平方毫米。面積和一塊晶圓差不多。

        片上緩存最大:包含18GB的片上SRAM存儲(chǔ)器。

        運(yùn)算核心最多:包含40萬個(gè)處理核心。

        WSE由臺(tái)積電代工,但是并沒有使用當(dāng)前最先進(jìn)的7nm工藝,而是使用相對(duì)較老的16nm制程工藝制造。

        臺(tái)積電運(yùn)營高級(jí)副總裁JK Wang表示:“我們對(duì)與Cerebras合作制造WSE非常滿意,這是晶圓級(jí)開發(fā)的行業(yè)里程碑。”

        雖然WSE制造成本可能很高,但Cerebras認(rèn)為片上互連比構(gòu)建和連接獨(dú)立的內(nèi)核速度更快、成本更低。

        與其他芯片對(duì)比

        WSE可以說是個(gè)龐然大物,一般的芯片都可以放在手掌心,而WSE面積比Mac的鍵盤還要大。官方在介紹這款芯片時(shí),需要用雙手捧著,和展示晶圓沒什么兩樣。

        史上最大AI芯片誕生:462平方厘米、40萬核心,創(chuàng)下4項(xiàng)世界紀(jì)錄

        WSE面積比英偉達(dá)最大的GPU核心V100還要大56倍,V100核心的尺寸為815平方毫米,包含211億個(gè)晶體管。

        最近AMD為數(shù)據(jù)中心提供的Epyc 2芯片,也是世界上最快的x86處理器,也只有320億個(gè)晶體管,數(shù)量僅為WSE的30分之一。

        英特爾最新的桌面級(jí)處理器i9-9900k有16MB緩存,英偉達(dá)RTX 2080Ti有5.5MB二級(jí)緩存,在WSE 18GB緩存面前也是小巫見大巫。RTX 2080Ti已經(jīng)堪稱功耗怪獸,TDP為250W,而WSE則需要15千瓦的供電。

        性能參數(shù)

        WSE包含40萬個(gè)對(duì)AI優(yōu)化的計(jì)算核心,稱為稀疏線性代數(shù)核心(SLAC),它靈活、可編程,并針對(duì)支持所有神經(jīng)網(wǎng)絡(luò)計(jì)算的稀疏線性代數(shù)進(jìn)行了優(yōu)化。

        SLAC的可編程性確保內(nèi)核可以在不斷變化的機(jī)器學(xué)習(xí)領(lǐng)域中運(yùn)行所有神經(jīng)網(wǎng)絡(luò)算法。

        由于稀疏線性代數(shù)核心針對(duì)神經(jīng)網(wǎng)絡(luò)計(jì)算基元進(jìn)行了優(yōu)化,因此它們可實(shí)現(xiàn)業(yè)界最佳利用率,通常是GPU的3~4倍。此外,WSE核心包括Cerebras發(fā)明的稀疏性收集技術(shù),加速深度學(xué)習(xí)這類稀疏工作負(fù)載的計(jì)算性能。

        零在深度學(xué)習(xí)計(jì)算中很普遍。通常要相乘的向量和矩陣中的大多數(shù)元素都是零。然而乘以零會(huì)浪費(fèi)計(jì)算資源。

        史上最大AI芯片誕生:462平方厘米、40萬核心,創(chuàng)下4項(xiàng)世界紀(jì)錄


        通常GPU和TPU被設(shè)計(jì)為永不遇到零的計(jì)算引擎,它們即使有零也會(huì)乘以每個(gè)元素。當(dāng)深度學(xué)習(xí)中50-98%的數(shù)據(jù)為零時(shí),大多數(shù)乘法都被浪費(fèi)了。

        由于Cerebras稀疏線性代數(shù)核心不會(huì)乘以零,所有零數(shù)據(jù)都會(huì)被濾除,并且可以在硬件中跳過,從而可以用著節(jié)約的資源去完成有用的工作。

        內(nèi)存是每個(gè)計(jì)算機(jī)體系結(jié)構(gòu)的關(guān)鍵組件。更接近計(jì)算核心的緩存能帶來更低的延遲和更好的數(shù)據(jù)移動(dòng)效率。

        高性能深度學(xué)習(xí)需要大量計(jì)算,并且頻繁訪問數(shù)據(jù)。這需要計(jì)算核心和存儲(chǔ)器之間的緊密接近,但是在GPU中并非如此,大容量的顯存并不在GPU核心上,而是外置的。

        WSE片上的緩存達(dá)到了18GB,是GPU緩存的3000倍;可提供每秒9PB的內(nèi)存帶寬, 比GPU快10,000倍。

        Swarm是WSE上使用的處理器之間的通信結(jié)構(gòu),它只用傳統(tǒng)通訊技術(shù)功耗的幾分之一就實(shí)現(xiàn)了突破性的帶寬和低延遲。

        Swarm提供低延遲、高帶寬的2D網(wǎng)格,可連接WSE上的所有40萬個(gè)核心,帶寬為每秒100 petabits。WSE通信能量成本遠(yuǎn)低于每比特1pJ,這比圖形處理單元低近兩個(gè)數(shù)量級(jí)。

        面臨的問題

        為何其他芯片廠商不制造如此大尺寸的芯片呢?這是因?yàn)樵谥圃炀A的過程中不可避免會(huì)有一些雜質(zhì),這些雜質(zhì)會(huì)導(dǎo)致芯片的故障。

        通常的做法是將一片很大的晶圓切割成若干個(gè)小片,從中挑選出其中可用的部分,封裝成芯片,而將報(bào)廢部分丟棄。

        而Cerebras的芯片已經(jīng)和晶圓面積差不多大了,是在一個(gè)晶圓上切割出一塊大的芯片,制造過程中不可避免會(huì)產(chǎn)生缺陷。

        為了解決缺陷導(dǎo)致良率不高的問題,Cerebras在設(shè)計(jì)的芯片時(shí)候考慮了1~1.5%的冗余,添加了額外的核心,當(dāng)某個(gè)核心出現(xiàn)問題時(shí)將其屏蔽不用,因此有雜質(zhì)不會(huì)導(dǎo)致整個(gè)芯片報(bào)廢。



        史上最大AI芯片誕生:462平方厘米、40萬核心,創(chuàng)下4項(xiàng)世界紀(jì)錄

        Cerebras團(tuán)隊(duì)遇到的另外一個(gè)問題是芯片的刻蝕。今天的光刻設(shè)備仍然只能刻蝕面積較小的單個(gè)芯片。因此Cerebras與臺(tái)積電合作發(fā)明了新技術(shù),來處理具有萬億加晶體管芯片的刻蝕和通訊問題。

        即使芯片制造成功,接下來還要面臨三重挑戰(zhàn):熱膨脹、封裝和冷卻。

        Cerebras的芯片功率達(dá)15千瓦,與AI集群相當(dāng)。給單個(gè)芯片提供巨大的功率,要考慮多方面的因素。

        由于芯片在運(yùn)行中會(huì)變得非常熱,但是不同材料的熱膨脹系數(shù)不同。這意味著將芯片與PCB的熱膨脹系數(shù)不能差距太大,否則兩者之間產(chǎn)生裂縫。

        Cerebras在芯片上方安裝了一塊“冷卻板”,使用多個(gè)垂直安裝的水管直接冷卻芯片。由于芯片太大而無法放入任何傳統(tǒng)封裝中,Cerebras還設(shè)計(jì)了結(jié)合了連接PCB和晶圓兩者的定制連接器以及冷卻裝置。

        關(guān)于Cerebras


        史上最大AI芯片誕生:462平方厘米、40萬核心,創(chuàng)下4項(xiàng)世界紀(jì)錄

        Cerebras公司由Sean Lie(首席硬件架構(gòu)師)、Andrew Feldman(首席執(zhí)行官)等人于2016年創(chuàng)立。后者曾創(chuàng)建微型服務(wù)器公司SeaMicro,并以3.34億美元的價(jià)格出售給AMD。

        該公司在加州有194名員工,其中包括173名工程師,迄今為止已經(jīng)從Benchmark等風(fēng)投機(jī)構(gòu)獲得了1.12億美元的投資。

        參考資料:

        https://www.pcworld.com/article/3432977/cerebras-systems-new-deep-learning-chip-is-as-big-as-your-keyboard-and-the-largest-ever.html

        https://www.crunchbase.com/organization/cerebras-systems#section-overview




        關(guān)鍵詞: AI芯片

        評(píng)論


        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 大宁县| 马公市| 黄平县| 曲周县| 台州市| 本溪| 阿巴嘎旗| 特克斯县| 安丘市| 和顺县| 崇仁县| 巴东县| 岑溪市| 眉山市| 潜江市| 蓝山县| 宜宾市| 新安县| 虎林市| 新建县| 右玉县| 广西| 仁怀市| 遂川县| 探索| 夹江县| 泰兴市| 行唐县| 阿坝县| 木兰县| 紫阳县| 新干县| 县级市| 南川市| 合作市| 西乌| 唐山市| 安平县| 桐乡市| 辽源市| 双鸭山市|