新聞中心

        EEPW首頁 > 智能計算 > 編輯觀點 > OpenAI再次對線谷歌,誰才是贏家?

        OpenAI再次對線谷歌,誰才是贏家?

        作者:陳玲麗 時間:2024-05-16 來源:電子產品世界 收藏

        2月份,發布了多模態 1.5 Pro,直接將性能拉到支持百萬Token的業界新高。但在同一天發布了文生視頻工具Sora,搶盡了的幾乎所有風頭。

        本文引用地址:http://www.104case.com/article/202405/458804.htm

        這一次再次精準“定位”,上周突然宣布在I/O大會前一天搶先召開發布會,而谷歌I/O大會的日期早在數月前就已經定檔。發布的最新GPT-4o(o代表著Omnimodel全能模型),提前引爆了AI的關注熱度,分散了谷歌即將發布AI新品的話題度。

        OpenAI更自然的人機交互

        在OpenAI的最新發布會上,雖然沒能見到GPT-5,但GPT-4o的出現仍然驚艷,GPT-4o中的“o”代表“Omni”,是一個基于GPT-4之上的多模態大模型。OpenAI稱,它向更自然的人機交互邁進了一步,因為它接受文本、音頻和圖像的任意組合作為輸入內容,并生成文本、音頻和圖像的任意組合輸出內容。

        GPT-4o不僅是完全免費的,而且覆蓋了桌面與移動App,人機交互更加自然簡單,真正做到了實時語音對話,就像是與真人聊天一樣自然流暢 —— 能夠在短至232毫秒內響應音頻輸入,平均響應時間為320毫秒,與人類在對話中的反應速度幾乎一致。

        對比傳統語音助手如Siri、Alexa以及各種「同學們」在處理語音輸入時,需要多個模型的接力處理:先將音頻轉換為文本,再進行“輸入并輸出文本”的處理,最后再將文本轉換回音頻。這種處理方式常導致信息的大量丟失,例如無法捕捉到語調、識別多個說話者或背景噪音。GPT-4o則是通過端到端地訓練一個統一的新模型,直接處理所有輸入和輸出,實現了真正的毫秒級響應。

        值得注意的是,GPT-4o還能夠與用戶進行多樣化的語氣交互,并精準捕捉到用戶的情緒變化。面對GPT-4o處理反應已經達到人類的速度,甚至還可以理解用戶的情緒,以相應的情感作出回應。那么,谷歌在I/O大會上又拿出了怎樣的AI產品,是否帶來了足夠的震撼與新意?

        640.jpeg

        谷歌AI全家桶

        谷歌I/O大會主題演講上發布了一系列基于的“AI全家桶” —— 包括AI助手Project Astra、升級200萬tokens上下文的Gemini 1.5 Pro、新模型Gemini 1.5 flash、類Sora的新視頻大模型Veo,以及包括AI搜索、AI+Gmail在內的多個AI應用。

        Project Astra

        Project Astra是一個實時、多模式的人工智能助手,而從谷歌的演示視頻來看,可以通過視頻畫面接受信息、理解復雜多變的環境并做出回應。例如用戶手持手機,將攝像頭對準辦公室的不同角落,當發出指令“請告訴我智能眼鏡在哪里”時,Astra能夠迅速識別物體,并與用戶進行實時的語音交流。

        它也可以理解繪畫和圖像,如可以對一個寫在白板上的系統流程圖給出意見“在服務器和數據庫間添加緩存可以提高速度”。DeepMind聯合創始人兼首席執行官德米斯·哈薩比斯(Demis Hassabis)稱,Project Astra是自己期待了幾十年的AI助手的雛形,是通用AI的未來,“可以通過連續編碼視頻幀、將視頻和語音輸入組合到事件時間線中,并緩存這些信息以進行有效回憶,從而更快地處理信息。”

        略微遺憾的是,OpenAI搶先發布了GPT-4o的類似功能,晚一天亮相的Project Astra少了一些驚喜和震撼,或許這就是OpenAI突然搶先發布的主要原因,因為誰先發布就占據了媒體報道的焦點。

        升級版Gemini 1.5 pro

        Project Astra背后的Gemini系列大模型能力也有更新,此次升級大致可以歸結為:更長上下文、輕量版本、個性化機器人。升級后的Gemini可以分析比以前更長的文檔、代碼庫、視頻和音頻記錄,據透露,它最多可以容納200萬token(暫時只面向開發者提供)。這是之前的兩倍,新版Gemini 1.5 Pro支持所有商用型號中最大的輸入。

        新模型Gemini 1.5 flash

        為了滿足不同場景的需求,谷歌還發布了新的輕量級模型:Gemini 1.5 Flash,是通過Gemini 1.5 Pro“蒸餾”得來(“蒸餾”是一種模型壓縮技術,讓小模型學習大模型,將重要的知識和技能遷移過來)。Gemini 1.5 Flash的上下文處理能力同樣達到了百萬級別,但卻比1.5 Pro更為輕便迅速,針對低延遲和專注成本的任務進行了優化,更適合規模化構建。

        解決了關鍵的成本問題,Gemini 1.5 Flash的價格定為每100萬個token需要35美分,這比GPT-4o的每100萬個token需要5美元的價格要便宜得多。

        640-2.jpeg

        Gemini大模型已經覆蓋了谷歌全平臺的20億用戶產品,僅僅三個月時間就有100多萬用戶注冊使用。而兩個月前發布的原生多模型Gemini 1.5 Pro已經得到超過150萬開發者的使用。

        在AI領域投入了十多年時間,貫穿了AI的每一層:研究、產品、基礎設施后,谷歌宣布已經全面進入Gemini時代。雖然OpenAI在產品發布方面搶占了先發優勢,但谷歌在研究論文、用戶規模、產品數量以及算力方面都占據著壓倒性優勢。

        文生視頻模型Veo

        視頻生成模型Veo直接對標OpenAI的Sora,可以根據文本提示創建大約一分鐘長的1080p視頻剪輯。Veo可以捕捉不同的視覺和電影風格,包括風景和延時鏡頭,并對已生成的鏡頭進行編輯和調整。與Sora類似,Veo展現了對物理規律的一定理解,比如流體動力學和重力等。

        未來Veo將整合到YouTube Shorts和其他產品中,YouTube Shorts是谷歌對標TikTok的短視頻服務,得益于YouTube的龐大體量,發布三年時間之后,目前月活用戶已經突破了23億。顯然,一旦Veo進入YouTube Shorts,其用戶規模將是Sora所無法想象的。

        更強的AI搜索

        自生成式AI崛起開始,搜索被認為是AI應用最成熟的場景。AI搜索的升級也是本次發布會的一大亮點,推出了AI Overviews,該功能將AI結果加入到搜索內容呈現,即當用戶進行提問時,頁面頂部將提供AI生成的答案。每次用戶進行搜索時,谷歌會在后臺進行算法價值判斷,以決定是否提供由AI生成的答案還是直接提供傳統的網頁鏈接。

        谷歌也強化了多模態方面的搜索表現。比如,推出AI驅動的“圈搜索”功能,允許Android用戶使用轉圈等手勢立即獲得答案。這一設計的初衷是,讓用戶在手機上的任何地方都可以更自然地通過一些操作(例如圈選、突出顯示、涂鴉或點擊)來使用搜索。此外,用戶還能通過結合視頻進行搜索,用視頻搜索能夠更清晰、準確地反饋問題。

        實際上,移動端才是用戶體驗谷歌AI功能的最直接平臺。在今年年初三星手機推出谷歌AI技術加持的畫圈搜索、全屏翻譯等人性功能之后(三星國行版使用百度AI技術),半年時間全球已經有超過1億設備搭載了谷歌畫圈搜索功能。谷歌預計今年年底這一數字將翻一倍,達到兩億設備。

        第六代TPU芯片Trillium

        在I/O大會上還發布了第六代TPU處理器Trillum,每個芯片處理速度比前一代TPU v5e提升了4.7倍。谷歌在AI領域的強大優勢不僅體現在大模型,還體現在他們在AI處理器領域的實力,早在2016年谷歌就推出了為AI訓練設計的第一代TPU(定制張量處理單元)。Gemini大模型完全是在自己的第四代和第五代TPU上進行訓練與服務的,谷歌甚至還向Anthropic等其他AI公司提供了TPU訓練服務。除了TPU之外,谷歌上個月還發布了第一代基于ARM架構的AI CPU Axiom。

        OpenAI再次對線谷歌

        2023一整年,OpenAI和谷歌多次對線,相信谷歌深深品嘗到了peer pressure的滋味:

        · 2022年11月,OpenAI發布一鳴驚人,開啟了全球大語言模型的熱潮;2023年3月,谷歌緊急發布了Bard,上線時功能有限,無法和有效競爭。

        · 在谷歌發布Bard的同一時期,OpenAI已經更新推出GPT-4并開放了API;2023年的谷歌I/O大會發布PaLM 2對應GPT-4。但PaLM 2僅僅縮小了與GPT-4的差距,并沒有整體超越GPT-4,因此在這場大會上同時宣布正在訓練PaLM的繼任者Gemini。

        · 2023年12月,谷歌發布Gemini,而GPT-4已經是OpenAI一年前的產品。而且,Gemini還被爆出,宣稱打敗GPT-4的多模態視頻有后期制作和剪輯的成分。

        · 谷歌隨后緊接著推出了最強多模態大模型Gemini 1.5 pro,能夠穩定處理高達100萬token,創下了最長上下文窗口的紀錄;面對Gemini 1.5 pro,OpenAI只用了幾個小時就做出了回應 —— 推出文字視頻生成模型Sora,用前所未有的視頻生成性能以及世界模型的產品化,搶走了Gemini 1.5 pro的話題度,也強化了自己的AI領導地位。

        從產品進展來看OpenAI領先一籌。雖然OpenAI憑借創業公司的靈活專注優勢,屢屢搶占先發優勢,每次都能領先谷歌一步發布新品,但谷歌依然有著自己的獨有優勢所在。作為最早投入AI研究的科技巨頭,谷歌最大的競爭優勢不僅在于產品的研發,還包括了基礎設施和運算能力,在于龐大的谷歌應用矩陣與數十億的用戶級別。

        OpenAI的GPT-4o在自然語言處理能力上表現強大,谷歌在多模態理解、數據豐富性和開發者支持方面也展現了強勁的競爭力。兩者在各自擅長的領域均有顯著優勢,并不斷推動人工智能技術的發展。

        目前來看,手機依然是AI智能助手最重要的硬件載體,掌握Android系統的谷歌有著天然的優勢,前段時間蘋果與OpenAI的合作傳聞,可能正是來源于二者對抗谷歌因而各取所需。現在谷歌除了Gemini外,還有強力的外部支持,也是相比其他競爭者的最大優勢之一,即豐富的應用生態,可以用Gemini打通并連接更多自己的應用,用戶在谷歌應用和服務中的信息都能被調用。

        移動與桌面兩端的20億+的用戶規模,以及幾乎覆蓋所有領域的產品,更是谷歌AI技術落地的龐大產品軍火庫。從搜索到郵件,從地圖到圖片,再到辦公組件,谷歌有著太多上億乃至十億用戶級別的產品可以承載AI落地。

        然而,谷歌DeepMind的技術路線就暴露出了明顯的短板:在各個技術方向上投入的泛創新,消耗了大量資金,DeepMind與谷歌母公司Alphabet在商業化上的矛盾日趨加深;每個技術的重視程度、持續深入強度分散,最典型的就是Transformer架構,由谷歌發明卻被OpenAI發揚光大;落地遲緩,成果轉化的效率也很低下,這一點在Sora的爆火上就能看到,訓練Sora使用的擴散模型(diffusion model)、文生圖模型,谷歌都有相應的技術儲備和成果,但是卻沒能先推出相關的產品。

        值得一提的是,今年初,OpenAI發布了AI文生視頻模型Sora,一度驚艷市場,但Sora的模型訓練數據來源卻引起了外界的懷疑。面對Sora濫用Youtube視頻訓練的問題,在接受接受采訪時,桑達爾·皮查伊表示,如果谷歌確定OpenAI依賴YouTube內容來訓練其Sora模型,谷歌將要“解決這個問題”。

        “我認為這是他們應該回答的問題,我沒有什么要補充的,我們有明確的服務條款。所以,你知道,我認為通常在這些事情上,我們會與企業接觸,并確保他們理解我們的服務條款。我們會解決的。”



        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 周宁县| 阜平县| 潜山县| 皮山县| 沁源县| 江口县| 崇阳县| 济宁市| 晋中市| 樟树市| 石泉县| 阳城县| 垦利县| 岑溪市| 鸡泽县| 太原市| 商水县| 松阳县| 岱山县| 汾西县| 平罗县| 福建省| 磐安县| 冀州市| 台北县| 湄潭县| 福安市| 故城县| 贵州省| 平度市| 泽库县| 黎平县| 南昌县| 延长县| 梅州市| 区。| 苏尼特右旗| 启东市| 湘阴县| 佛坪县| 托里县|