云巨頭,芯片十年
Annapurna Labs 聯合創始人 Nafea Bshara 了解半導體并欣賞優質紅酒。亞馬遜杰出工程師James Hamilton(詹姆斯·漢密爾頓)熱衷于改變行業的想法,并且喜歡與聰明的企業家會面。
就這樣,10 年前,即 2013 年秋天,他們來到了西雅圖派克市場歷史悠久的 Virginia Inn 餐廳和酒吧,進行了一場最終改變亞馬遜云業務進程的對話。
他們的會面以及亞馬遜最終收購Annapurna Labs ,加速了這家科技巨頭創建自己的處理器的計劃,為其當前人工智能戰略的一個關鍵組成部分奠定了基礎。
亞馬遜的定制芯片,包括用于先進人工智能的芯片,本周將成為人們關注的焦點,因為亞馬遜網絡服務試圖在拉斯維加斯舉行的re:Invent 會議上表明自己在人工智能新時代的地位。
兩周前,微軟宣布了自己的一對定制芯片,其中包括在 OpenAI 的幫助下設計的Maia AI Accelerator ,而在這家 ChatGPT 制造商最近陷入混亂之前。微軟將其定制芯片描述為優化和最大化其云基礎設施性能的最終“拼圖”。
在人工智能應用中,ChatGPT 已經讓亞馬遜緊隨其后,特別是當 OpenAI 的聊天機器人與 Alexa 語音助手的對話能力進行比較時。
正如亞馬遜首席執行官安迪·賈西(Andy Jassy)所說,在人工智能的“中間層”中,亞馬遜希望通過 AWS Bedrock 脫穎而出,提供對多種大型語言模型的訪問。
但亞馬遜戰略的基礎是其定制的人工智能芯片Trainium和Inferentia,用于訓練和運行大型人工智能模型。
它們是大型云平臺制造自己的芯片的趨勢的一部分,經過優化,可以在世界各地的數據中心以更高的性能和更低的成本運行。盡管微軟剛剛公開了其計劃,但谷歌已經開發了多代張量處理單元,谷歌云將其用于 機器學習工作負載,據報道,谷歌正在開發 自己的基于 Arm 的芯片。
在人工智能領域,這些芯片提供了通用芯片的替代品。例如,Jassy 在 8 月份的公司季度財報電話會議上表示,AWS 客戶已經接受了 Nvidia 廣泛使用的 H100 GPU,作為亞馬遜 EC2 P5 實例的一部分,用于深度學習和高性能計算。
“然而,迄今為止,市場上只有一種對每個人來說都是可行的選擇,而且供應一直很稀缺,”賈西當時補充道。“再加上我們過去幾年積累的芯片專業知識,促使我們幾年前開始開發自己的定制人工智能芯片。”
亞馬遜的人工智能芯片是定制芯片系列的一部分,這一系列可以追溯到十年前 Bshara 和 Hamilton 在角落攤位上的對話。
“這就是未來。”
漢密爾頓是一位廣受尊敬的工程師,擔任亞馬遜高級副總裁,于 2010 年從微軟加入這家云巨頭。他于 2021年被任命為亞馬遜高級領導團隊成員,并繼續直接向賈西匯報。
漢密爾頓最近回到弗吉尼亞旅館接受 GeekWire 采訪時表示,他最初是在認識到 Amazon S3(簡單存儲服務)在線服務的潛力后才被亞馬遜吸引的。諷刺的是,在微軟的 Bill Gates 和 Ray Ozzie 讓他針對 S3 編寫一個應用程序進行實驗之后,他才意識到這一點。
“我在會議之前收到了這張賬單——7.23 美元。我花了 7.23 美元用于計算、編寫這個應用程序并測試它,”他回憶道。“它改變了我的生活。我剛剛意識到,這就是未來。”
這是云中開發人員和企業可以獲得的價格和性能優勢的早期跡象。但在亞馬遜工作幾年后,漢密爾頓意識到公司需要再次飛躍。

James Hamilton 出席 2016 年 AWS re:Invent 大會
就在 2013 年與 Bshara 會面前幾周,漢密爾頓為杰夫·貝佐斯和當時的 AWS 首席執行官賈西(亞馬遜稱他們為“six-pager”)撰寫了一篇內部論文,為 AWS 開始開發自己的定制芯片提供了理由。
“如果我們不制造芯片,我們就會失去創新的控制,”漢密爾頓回憶起當時的想法,并將此舉描述為隨著服務器過渡到片上系統設計,公司的下一步自然發展。
在他看來,亞馬遜需要在芯片層面進行創新,以保持對其基礎設施和成本的控制;避免在關鍵服務器組件方面依賴其他公司;通過將安全性和工作負載優化等功能直接構建到硬件中,為客戶提供更多價值。
隨著 Arm 處理器在移動和物聯網設備中的應用量越來越大,Hamilton 相信這將帶來更好的服務器處理器以及更多的研發投資。
漢密爾頓工作早起,經常在晚上在當地的酒吧和餐館與初創公司、客戶和供應商會面,了解他們的工作情況。當時,他以環游世界和在船上工作而聞名,他會在辦公室和碼頭之間選擇可以停放自行車的地方。
Bshara 于 2011 年在以色列創辦了 Annapurna Labs,合作伙伴包括 Hrvoye (Billy) Bilic 和芯片設計公司 Galileo Technologies Ltd 的創始人 Avigdor Willenz。

Annapurna Labs 聯合創始人 Nafea Bshara 現在是 AWS 副總裁和杰出工程師。
他是由一位共同的朋友介紹給漢密爾頓的,他們同意按照漢密爾頓的傳統一起度過歡樂時光。Bshara 記得在當地的 UPS 商店打印了一系列幻燈片,然后將自己放在展位上,以免在向漢密爾頓展示時將內容透露給餐廳的其他人。
Hamilton 回憶起這家以色列初創公司所做的事情很快就給他留下了深刻的印象,他認識到其設計有可能成為亞馬遜第二代主力 Nitro 服務器芯片的基礎,該芯片的第一個版本是根據 Cavium 半導體的現有設計改編的公司。
Bshara 記得 Hamilton 在第一次會議上詢問 Annapurna 是否可以更進一步,開發基于 Arm 的服務器處理器。Annapurna Labs聯合創始人當時立場堅定:市場尚未準備好。
這表明他很現實,而不僅僅是說他認為亞馬遜高級工程師想聽的話。Bshara在會后發了一封電子郵件,詳細說明了他當時的理由。
這是他們在 Nitro 上最初合作的火花,最終導致亞馬遜在 2015 年以據稱 3.5 億美元的價格收購了 Annapurna 。亞馬遜表示,目前正在使用的 Nitro 芯片已超過 2000 萬個。
AWS 于 2018 年推出了由 Annapurna 開發的基于 Arm 的 CPU Graviton。當他們決定制造這款芯片時,Hamilton 提醒 Bshara 當初見面時他對 Arm 服務器的評價。
“我告訴他,你是對的,”Bshara回憶道,并解釋說市場現在已經準備好了。
亞馬遜的優勢與挑戰
Annapurna 讓亞馬遜在這個看似走鋼絲的領域取得了早期優勢。
Bshara 解釋說,設計芯片“極其困難——它與軟件不同”。“犯錯的余地為零。因為如果你有一個錯誤,然后你旋轉一個芯片,你就會損失九個月的時間。對于軟件,如果出現錯誤,您可以發布新版本。在這里,你必須去打印一個新版本。”
亞馬遜渴望談論這段歷史的原因之一是為了反駁人們普遍認為亞馬遜因生成人工智能的興起而措手不及的看法。這將成為本周在拉斯維加斯舉行的 re:Invent 大會上反復出現的主題,AWS 首席執行官 Adam Selipsky 和團隊將展示他們的最新產品和功能。
“我們絕對希望成為運行生成式人工智能的最佳場所,”負責運行 AWS EC2(彈性云計算)的亞馬遜副總裁Dave Brown說道,AWS EC2 是該公司云計算平臺的核心服務。“當你考慮客戶想要做什么時,這是一個非常廣泛的領域。”
他表示,即使不使用亞馬遜的 AI 芯片,該公司的 Nitro 處理器在顯著提高通常用于 AI 訓練的 Nvidia 支持的 EC2 P5 實例的網絡吞吐量方面也發揮著關鍵作用。
但定制的人工智能芯片使其能夠進行更精細的控制。
“因為我們擁有 Trainium 和 Inferentia 的全部內容,所以不存在我們無法一直調試到硬件的問題,”他說。“我們能夠使用定制芯片大規模構建極其穩定的系統。”
CCS Insight首席分析師James Sanders表示,由于涉及的工作負載規模巨大,定制芯片對于 AWS、Azure 和 Google Cloud 等主要云平臺至關重要。
“從數據中心規劃的角度來看,只要將盡可能多的 GPU 放入服務器機架中,就會開始遇到很多麻煩,”他說。“這變成了散熱問題,變成了功耗問題。”
與商用芯片相比,定制芯片可以更好地優化工作負載、降低功耗并提高安全性。高耗電的 GPU 還具有一些對于 AI 工作負載來說不必要的功能。亞馬遜很早就認識到了這一事實,并在定制人工智能芯片方面憑借 Trainium 和 Inferentia 占據了先機。
然而,桑德斯表示,軟件方面是一個關鍵挑戰。
Nvidia 在人工智能領域擁有強大的地位,這要歸功于其用于 GPU 通用計算的軟件平臺 CUDA。這給了英偉達一條護城河。他說,亞馬遜的障礙之一是將人工智能工作負載從 Nvidia GPU 上的 CUDA 移植到亞馬遜芯片上運行。這需要開發人員付出巨大的努力以及亞馬遜的推廣。
Moor Insights & Strategy首席執行官兼首席分析師、AMD 前戰略副總裁帕特里克·穆爾黑德 ( Patrick Moorhead)表示,如果開發人員局限于使用 CUDA 作為編程語言,那么將現有工作負載從 Nvidia GPU 上移走可能會很困難。他將這一前景描述為“一次非常沉重的提升”。
他說,亞馬遜的軟件抽象層和集成開發工具可以在啟動新工作負載時簡化這種過渡。
Annapurna 聯合創始人 Bshara 表示,亞馬遜認識到軟件熟悉度對長期增長的重要性,該公司正在投入大量資源為其 AI 芯片構建軟件工具鏈。
“許多客戶將 Trainium 支持視為一種戰略優勢,”Bshara 通過電子郵件表示。“我們對客戶如此迅速地接受這些芯片感到興奮,并相信工具和支持很快將至少像他們以前使用過的任何芯片架構一樣為客戶所使用和熟悉。”
他表示,該公司的人工智能芯片已被 AirBnB、Snap 和 Sprinklr 等公司大規模使用,具有明顯的性能和成本優勢。
Anthropic 還將根據他們最近宣布的合作伙伴關系使用亞馬遜的 AI 芯片,其中亞馬遜將向這家初創公司投資高達 40 億美元,作為與微軟和 OpenAI 的雙雄對抗。
Moorhead 表示,展望未來,亞馬遜面臨的最大挑戰將包括,隨著人工智能模型的需求持續呈指數級增長,如何利用最新的芯片架構在技術上保持領先地位;并繼續大力投資研發,與 Nvidia 和 AMD 等專用芯片公司競爭。
Moorhead 表示,亞馬遜在開發自己的芯片時冒了很大的風險,但它通過重置半導體行業并在主要云平臺上引發新的競爭而獲得了回報。“他們努力了,而且也做到了,”他說。“他們確實激勵了其他人效仿。”
來源:EETOP
--End--
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。