博客專欄

        EEPW首頁 > 博客 > 存內計算,不確定的未來

        存內計算,不確定的未來

        發布人:旺材芯片 時間:2023-12-14 來源:工程師 發布文章

        最近,Semiengineering發布了一篇專家討論文章,分享了他們關于AI和SRAM的不確定未來。


        首先,在問到人們是否會致力于縮小 SRAM 的尺寸嗎?考慮到物理定律,這是否可能?


        Alphawave Semi首席技術官 Tony Chan Carusone表示,人們一直承諾會有改進,但趨勢是 SRAM 的擴展速度比邏輯慢。這意味著要么架構發生變化,要么 SRAM 消耗給定芯片的比例越來越大。我們可能會看到兩者。您可以更改層次結構、更改位置、更改用于防止瓶頸的內存類型。這是一種解決方案。但將會有大量的技術研發,比如自下而上的壓縮 SRAM 的解決方案。


        Quadric首席營銷官Steve Roddy也認同,通過改變核心技術你能做的只有這么多。在標準 SoC 中,它是經典的 6T SRAM,這種情況已經存在 30 到 40 年了。人們已經嘗試過各種類似 3T cell的東西,但存在可靠性、可制造性和可設計性問題,例如如何使用它進行測試。某些市場,例如汽車市場,當您獲得更容易出錯或對阿爾法粒子敏感的cell時,就會感到恐慌。也許你無法在汽車中安裝巨型推理機,因為汽車存在可靠性和功能安全問題。所有這些事情都必須考慮在內。各種內存層成為架構師需要使用的工具包。


        在問到為什么 SRAM 的縮小速度比邏輯慢時?


        西門子 EDA的內存技術專家Jongsin Yun說, SRAM 的微縮滯后于邏輯收縮,主要是由于最新技術中嚴格的設計規則。過去,我們對 SRAM 有單獨的設計規則,這使我們能夠比基于邏輯晶體管的設計縮小更多尺寸。然而,當我們轉向更小尺寸的節點時,保持這種區別變得越來越具有挑戰性。現在,SRAM 正在遵循越來越多的邏輯設計規則,并且與基于邏輯晶體管的設計相比,進一步縮小存儲器的優勢并不明顯。


        除此之外,存儲器的大小也很重要,因為這種設計在芯片上重復了數百萬次,從而影響了芯片的成本。然而,當我們近年來從較低的技術遷移時,好處被稀釋了,因為我們最終會花更多的錢遷移到較低的技術節點,而不是縮小 SRAM 內存大小的好處。這是我們在努力提高 AI 芯片中 SRAM 密度時面臨的主要挑戰。


        而在問到縮小晶體管尺寸會導致漏電流,人們又將如何應對時?


        Jongsin Yun接著說,技術遷移的主要漏電優勢來自降低 VDD 電平和采用新材料,例如晶體管氧化物中的高 k 材料,以改善柵極漏電,從而提高功率效率。然而,VDD 縮放已在 0.7 至 0.8 電壓范圍附近達到飽和點,這意味著我們不再能夠從電壓降低中獲得額外的好處,并且其他泄漏水平也保持相對不變。如果我們繼續增加 SRAM 的密度并繼續采用更新的技術以在芯片中添加更多晶體管,我們就需要更多的電量來支持芯片運行。


        例如,AMD首席執行官蘇姿豐(Lisa Su)預測,到2035年,我們將使用核電站一半的能源來運行一臺超級計算機。這是一個巨大的能源,我們正朝著不可持續的方向前進。需要采取一些措施來提高芯片的能耗。最近的 AMD 芯片減少了邏輯面積并填充了更多核心,同時保持內存密度相同。這可以通過減小邏輯面積來降低邏輯操作頻率。然而,它還允許系統通過將內核數量加倍而獲得額外的吞吐量來完成類似的工作負載,從而實現適度的權衡,但能效方面獲得顯著提升。


        眾所周知,最近存內計算很熱,當中SRAM是其中的重點之一。那么在近內存計算或內存計算中,SRAM將發揮什么作用?我們會在商業市場上看到內存計算嗎?


        Steve Roddy回應道,芯片初創公司已經多次嘗試將模擬內存計算商業化,特別是乘法函數。在機器學習中,有大量的矩陣乘法和卷積。通過談論圖像很容易概念化。3 x 3 卷積正在圍繞三個最近的鄰居進行計算。因此,使用 1 x 1、3 x 3、9 x 9,您可以擴大要計算的范圍。它非常適合您可以在存儲單元中完成此操作的想法。通過模擬,您可以即時訪問并且可以集成電壓等。但實際上,這些東西都沒有實現。大量風險資金(數億美元)投入到了從未見過世面的解決方案中,主要是因為它成為了一個分區問題。


        如果你說,“我將在內存本身中構建某種奇怪的非數字計算”,根據定義,你已經說過,“我將用單獨的技術開發出一個單獨的芯片,而我的一般計算引擎將運行純數字芯片,而其他一些引擎將在該存儲芯片中運行。現在你對算法進行了非常嚴格的劃分,這造成了很大的限制。您必須擁有這個Goldilocks網絡,其中計算可以保留在模擬芯片本地,然后才必須返回到主要代碼完成執行的通用芯片。


        如果您的手機配備高通應用處理器(與其他公司不同的芯片),并且您想在 Zoom 通話期間實時運行面部美化算法,您該怎么做?如何同步軟件的執行?算法每年都變得更加復雜,而數據科學家并沒有放慢他們的創新速度。Transformer 是新事物,就像 ChatGPT 的視覺 Transformer 一樣,由于來回傳輸量非常復雜。假設您已經部署了一些用于卷積的內存計算。你永遠不會將視覺轉換器映射到它,因為你會花掉等待數據在兩種不同類型的芯片之間來回傳輸的時間。那么,SRAM 中的純內存計算有什么不同的、深奧的和分區的嗎?那永遠不會發生。


        如果您可以將其構建為可在 SoC 上的已編譯 SRAM,那么現在您所說的是不同的東西,但現在您必須擁有一個 6T 模擬單元,并內置某種其他模擬設備。它必須是與放置在其旁邊的大型 GPU 著色器引擎產生的噪音隔離開來,因此這也成為一個問題。如何構建芯片,使得這里的 10,000 個 MAC 不會將噪聲注入到您嘗試編譯的敏感模擬電路中?這似乎是一個站不住腳的問題。大約 3 億美元的風險投資已經付諸東流,而且還沒有人能夠實現量產。


        Chan Carusone也表示,由于 Steve 所描述的限制,大多數理性興趣都集中在將這種技術用于某些低功耗或利基邊緣推理類型的應用。我毫不懷疑潛在的影響。但現在的關鍵是為這項技術找到一個有足夠數量、足夠市場潛力的應用,以證明這種專門為其量身定制的硬件解決方案是合理的。這就是為什么我們看到這個想法已經存在了很長時間,但仍在等待它產生重大影響的機會。


        Yun對這種觀點表示贊同,他指出,很多新技術如果沒有市場的大量需求就不會得到發展。即使我們已經準備好部署一項有前途的技術,但在我們解決了所有風險并收到使用它來創收的需求之前,它也不會付諸實踐。在內存計算(CiM)的情況下,我們可以減少數據傳輸,因為所有計算都發生在同一位置。這意味著數據將保留在那里并進行計算,而無需任何數據傳輸。這意味著更快的處理速度和能源效率。


        然而,為了實現這一目標,我們需要對周圍系統進行各種調整,以適應這些新的數據處理方式。為了證明投資此類變革的合理性,必須有強勁的需求。此外,不應該存在風險較低的替代解決方案,因此我們可以放心地開始研究它。


        朝著這個方向邁出一步的一個例子是利用 DRAM。當我們的AI芯片中有很多核心并行連接時,我們需要為處理器帶來寬帶寬的數據以提高效率。因此設計人員添加了大量連接到AI芯片的DRAM來傳輸海量數據。選擇 DRAM 是因為將數據存儲在 DRAM 中比 SRAM 更具成本效益。因此,每當核心數量增加時,就需要增加 DRAM 的通道數量。現在我們的一些人工智能芯片有數千個核心。它需要越來越多的 DRAM 通道,很容易達到數百個引腳,盡管物理上不可能將太多通道連接到一個芯片中。我們必須解決這個瓶頸。


        三星建議在 DRAM 本身內執行近內存計算。他們在 DRAM 中添加了一個 MAC 單元來執行初始計算。之后,將數據發送至AI芯片進行后續處理。這種方法距離近內存計算又近了一步。如果人們看到死胡同,就會找到新的解決方案。如果有辦法緩解現有配置的問題,人們傾向于保留現有設置以避免轉向新方法的風險。


        Chan Carusone則表示,DRAM 內存瓶頸是需要解決的關鍵挑戰,這就是 HBM 重要性日益增加的原因。HBM 有一個良好的路線圖,可以提供更高帶寬的內存接口。人們還討論了本質上使用某種類型的小芯片(即 HBM 到 DDR 轉換器)的潛力。這可能會在內存中引入另一個層次,其中有一些 HBM,也許還有一些稍微遠一點的 DDR。人們正在考慮以各種不同的方式解決這個內存瓶頸問題。


        Roddy則說道,人們甚至試圖在數據科學層面上以數字方式解決內存瓶頸問題。訓練顯然是非常昂貴的,如果你想訓練你的 1000 億參數的聊天機器人,這需要在你最喜歡的云服務上花費數百萬美元的計算時間。人們已經嘗試過,如果他們在訓練中的計算是浮點32(fp32),他們可以存儲到DDR和其他格式嗎?你有 bfloat、fp8 以及他們嘗試弄清楚的各種東西。幾年前對我來說最簡單的是 bfloat。你確實需要一個 fp32 數字,截掉尾數的 16 位以下,然后把它扔掉,說:“我真的不需要它。” 當我下次帶它回來訓練時,我會把它拿回來。很簡單,就像“如何將 DDR 流量減少一半并加快整體訓練問題的速度?” 這已經演變成一大堆其他類型的數字問題,比如具有各種深奧格式的 fp8。他們都在努力應對大量數據的挑戰——用于全自動駕駛或語言樣本的無數圖像,或者無論它是什么,都必須從計算轉移到內存,從內存轉移到計算。這是內存瓶頸和內存層次結構問題,目前不是計算問題。


        來源:半導體行業觀察


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: 存內計算

        技術專區

        關閉
        主站蜘蛛池模板: 元氏县| 汉阴县| 平潭县| 亳州市| 维西| 丽江市| 永新县| 高雄市| 兴城市| 万年县| 丹寨县| 桐庐县| 铅山县| 涟源市| 滦南县| 迁安市| 峨边| 石河子市| 东至县| 唐海县| 乌鲁木齐县| 郎溪县| 军事| 玉溪市| 蓬莱市| 塘沽区| 咸阳市| 丹江口市| 无锡市| 洛南县| 长沙市| 安国市| 安阳市| 安达市| 阳东县| 北流市| 印江| 酉阳| 长丰县| 太湖县| 建平县|