新聞中心

        EEPW首頁 > 智能計算 > 市場分析 > 全球AI競賽,美國的優勢不止英偉達

        全球AI競賽,美國的優勢不止英偉達

        作者: 時間:2024-07-09 來源:半導體產業縱橫 收藏

        人工智能的全球市場競爭中,「主權人工智能」開始成為越來越重要的議題。

        本文引用地址:http://www.104case.com/article/202407/460802.htm

        關于這個話題的大多數討論都集中在以下幾個核心問題:

        • 世界各國都希望盡快成為萬億美元人工智能市場,并讓人工智能成為本國經濟增長的關鍵引擎

        • 各個國家、地區都想要建立反映當地語言、政治和文化的本土人工智能系統

        • 各個國家、地區都認為技術獨立是一種應對當前緊張的世界政治格局的正確選擇

        這種「技術主權」的焦慮,主要來自人們已經深刻認識到技術落要面對的代價。

        美國科技的領先帶來的福利越來越清晰。20 世紀 80 年代和 90 年代,微軟和英特爾等美國科技巨頭主宰了 PC 時代,遠遠超過了亞洲和歐洲的競爭對手。在接下來的幾十年里,隨著硅谷涌現出一波又一波世界級公司,互聯網搜索、社交媒體、電子商務、移動和云計算等領域也出現了同樣的循環。

        2022 年 11 月 30 日,美國公司 Open 發布了給予大型語言模型(LLM)的 ChatGPT。隨后,公眾對 技術的關注熱情被迅速點燃。彼時,ChatGPT 成為歷史上增長最快的消費軟件應用程序,也掀起了全球 投資熱潮。英國半導體公司 Arm 和 Amadeus Capital Partners 的聯合創始人赫爾曼·豪澤 (Hermann Hauser) 表示:「我們非常擔心美國會再次遙遙領先」。豪澤曾撰寫大量關于歐洲建立技術主權必要性的文章。

        如何掌握人工智能的主權?

        面對美國再次領先,全世界都在準備 AI 的「糧草」。IDC 數據顯示,2022 年全球人工智能 IT 總投資規模為 1,324.9 億美元,并有望在 2027 年增至 5,124.2 億美元,年復合增長率為 31.1%。在生成式 AI 市場上,IDC 預測,全球生成式 AI 市場年復合增長率或達 85.7%。2027 年,45% 的企業將掌握并使用生成式 AI 來共同開發數字產品和服務,全球生成式 AI 市場規模將接近 1500 億美元。

        作為 AI 的載體,數據中心的建設如火如荼地進行中。

        日本政府投資 725 億日元,幫助 KDDI、軟銀和 Sakura 等多家日本公司為 AI 應用建立本地云數據中心。印度政府宣布了一項 12.5 億美元的計劃,名為「IndiaAI Mission」。通過該計劃,印度將在全國范圍內為創新者、初創企業、學生和教育機構提供便捷的計算能力。

        這樣的競賽讓英偉達芯片供不應求。當地時間 6 月 18 日,英偉達盤中股價上漲 3.2%,推升該公司市值達到 3.33 萬億美元,市值超越微軟。Arm 創始人的擔心似乎正在成真。

        英偉達產品在 AI 領域的廣泛使用成為美國 AI 行業發展的重要優勢。即使全球都在進行 AI 投資,美國 AI 投資規模依舊領先于非美國地區的投融資規模。

        數據來源:PitchBook

        當然,英偉達只是美國人工智能,特別是大語言模型產業優勢的一部分。基于英語數據庫的模型訓練,讓其他語言的用戶在進入 LLM 市場時,面對天然的壁壘。

        外國大型語言模型在處理當地語言新詞時往往面臨理解上的困難。以中文為例,盡管 ChatGPT 等模型能夠識別包括中文在內的多種語言,但由于其訓練數據主要基于英文文本,因此在處理非英語語言時,可能會遭遇語言結構、語法等方面的挑戰,從而影響其輸出效果。近日,一篇論文指出,相較于直接使用非英文語言作為提示詞,將非英文語言先翻譯成英文再進行處理的輸出效果更佳。

        此外,值得注意的是,中文與英文在訓練與推理方面存在顯著的「不公平性」。由于中文語言的復雜性,AI 模型在運用中文數據進行準確訓練和推理時可能會遭遇挑戰,并且增加了中文模型應用和維護的難度。同時,對于開發大模型的公司來說,構建中文大模型由于需要額外的資源,或許就得承擔更大的成本。

        具體而言,中文的 token 數通常比英文多出兩倍以上,這主要源于中文詞匯的豐富含義和靈活的語言組成。中文詞匯常常具有深厚的文化內涵和豐富的語境意義,這極大地增加了語言的歧義性和處理難度。相比之下,英語的語法結構相對簡單,這在一定程度上使得英語在某些自然語言處理任務中相較于中文更易于被理解和處理。而 token 數量就是成本,畢竟使用 OpenAI 的 GPT-4 模型 API,每輸入 1 千 token 至少要花費 0.03 美元。

        針對上述觀點,有工程師指出,中文與英文在模型訓練的基本原理上并無本質區別。兩者均是將語句拆解為獨立的單詞,隨后將這些單詞納入向量數據庫,并通過神經網絡進行深度學習。實際上,OpenAI 在初創時期亦曾面臨效果不佳的困境,最終之所以能夠取得顯著成效,主要得益于數據量的不斷積累與擴充。

        因此,無論是哪種語言的大模型,其訓練的核心原理均保持一致,并不會因語言差異而導致訓練難度的顯著變化。美國在大語言模型領域并未展現出特別的優勢,其之所以表現更為出色,主要得益于龐大的數據量。相比之下,中國在語料豐富性方面具備一定優勢。然而,由于中文處理過程中涉及的 token 數量相對較多,這也導致了模型在運行過程中所需的內存和計算資源相應增加,進而使得成本有所上升。目前,國內通義千問在相關領域表現優異,這同樣得益于其擁有大量的數據支持。

        盡管數據量是最重要的因素,全球各地也都在圍繞本國語言去發展大語言模型。

        非英語大模型的進擊

        HyperClova X 背后的另一個重要動機是追求更低的計算成本。使用 LLM 的費用通常取決于它們被要求處理的數據量,它們將這些數據分解成為標記的單詞或字符塊。標記越多,成本就越高。

        韓國互聯網巨頭 Naver 正積極研發其自有的大型語言模型——HyperClova X,并計劃將其廣泛應用于旗下各類服務中。此模型的引入,預計將深刻影響這個高度數字化的國家內,Naver 眾多應用程序的運行與體驗。Naver 的業務范疇廣泛,涵蓋了電子商務、搜索引擎、出行服務等多個領域。

        為確保 HyperClova X 的輸出內容能夠充分契合韓國國內受眾的文化背景,Naver 特別組建了一支專業的安全專家團隊。Naver 研究主管 Kang Min Yoo 指出,韓國社會擁有豐富的新詞文化,這些新詞往往令外國大型語言模型難以捉摸。同時,韓國民眾在對待政府調控房價等社會問題上的態度,相較于美國民眾,顯得更為支持。因此,HyperClova X 在回應相關問題時,能夠比非韓國模型更準確地反映這些社會價值觀。

        Kang Min Yoo 表示,大型語言模型在處理問題時,往往會根據上下文和地理位置的不同,得出不同的答案。這也是 HyperClova X 在研發過程中需要重點考慮的因素之一。

        當然,追求更低的計算成本也是推動 HyperClova X 研發的重要動力之一。在使用大型語言模型時,費用通常與所需處理的數據量成正比。而數據量的多少,又直接決定了模型需要處理的標記數量。因此,減少標記數量,降低計算成本,成為 HyperClova X 研發過程中的一項重要任務。

        Naver 宣稱,其模型相較于 OpenAI 的 GPT-3 含有 6,500 倍之多的韓語數據,從而能夠將韓語查詢分解為更少的標記,進而實現成本的有效降低。據對西方大型語言模型 LLM 的獨立分析顯示,處理非英語語言的查詢通常需要比英語更多的標記。

        在印度,有著類似的故事上演。人工智能初創公司 Sarvam AI 的創始人維韋克·拉加萬(Vivek Raghavan)正在致力于構建印地語專用的模型 OpenHathi,以提升其在印地語環境中的運行效率。盡管印地語是全球使用最為廣泛的語言之一,但拉加萬指出,印地語在 Common Crawl 這一網絡數據存儲庫中所占的數據比例僅為約 0.17%。而 Common Crawl 正是許多全球最大型的人工智能公司用于訓練其模型的重要資源。

        本地 AI 模型降低成本的有效性已引起了知名投資者的廣泛關注。硅谷著名風險投資家 Vinod Khosla 透露,他通常不會投資于與 OpenAI 及其他行業領先者直接競爭的公司,因為他認為新創公司難以在競爭中占得先機。然而,他卻為 Sarvam AI 和日本初創公司 Sakana AI 破例,對這兩家公司進行了投資。談及印度語言,Khosla 表示,基于英語的人工智能系統在處理印度語言時的效率往往比專門針對這些語言構建的模型低三到五倍。他強調在印度,降低成本至關重要,使用模型的每分鐘成本必須達到最低。

        歐洲的 AI 布局

        在激烈的競爭中,歐洲企業值得注意。要知道,如果溯源到人工智能的歷史,歐洲才是這一技術的發源地。英裔加拿大人 Geoffrey Hinton 和法國出生的 Yann LeCun,兩人被稱為「人工智能教父」。

        非美國地區 AI 投資規模前十案例

        根據上表所呈現的數據,歐洲在人工智能領域的投資規模明顯領先于其他地區。此外,在過去的十年中,歐洲的監管機構著手制定更為嚴謹且嚴格的基礎規則,旨在讓科技巨頭公司遵從其指導原則。歐盟及其成員國,包括德國和英國在內,已經通過了多項隱私法規,比如 2016 年實施的《通用數據保護條例》,旨在嚴懲濫用消費者個人數據的互聯網公司。

        最近,歐盟更是頒布了《數字市場法案》,以遏制科技領域的「守門人」通過不正當手段打壓規模較小的競爭對手。

        歐洲人工智能的初創企業日益增多,并逐漸吸引了硅谷投資者的關注。法國版的 OpenAI——Mistral,迄今為止已籌集了超過 10 億美元的資金,其中包括本周早些時候宣布的一輪融資,其估值據報道已達到 62 億美元。此外,法國人工智能公司 H(原名 Holistic)也從前谷歌首席執行官埃里克·施密特以及 LVMH 首席執行官伯納德·阿諾等業界知名人士處籌集了 2.2 億美元的資金。

        但又如近現代西方政治、經濟的變化一樣,美國卻再次「反超」了歐洲。這或許與歐洲文化有關。歐洲的商業文化更加側重于謹慎而非單純的增長,這種傾向可能在一定程度上導致歐洲在突破性技術領域的成功案例相較于美國有所減少。歐洲歷來不乏杰出的大學與卓越的人才,然而,這些優秀的人才和學術資源在商業化方面并未得到充分有效地利用。

        國內方面,不久前商湯科技發布了首個粵語大模型 Sensechat。可以發現 LLM 的競爭已經從硬件到軟件全面鋪開。在這場 AI 主權的競爭中,美國正在承受來自全世界的追趕。



        關鍵詞: AI

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 郸城县| 泰兴市| 富裕县| 辉县市| 阜平县| 江北区| 神池县| 汝城县| 万山特区| 津市市| 锦屏县| 临夏县| 视频| 石柱| 普安县| 崇州市| 巴塘县| 米易县| 宁明县| 林州市| 获嘉县| 镇赉县| 和平区| 稻城县| 荥阳市| 和林格尔县| 玉田县| 得荣县| 东港市| 玉溪市| 和龙市| 洛隆县| 海宁市| 百色市| 大丰市| 青岛市| 丽江市| 玛沁县| 杭锦后旗| 来安县| 沾化县|