百度:不做大模型王者,要做AI世界的基石
討論國產AI大模型,百度是繞不過的話題。作為中國AI產業的扛旗者,百度在AI技術上擁有足夠高的話語權,其推出的文心大模型被視作是最有機會追趕GPT的國產基礎大模型。不過從最新的發布來看,百度在AI大模型這件事上,似乎并不想過度地卷參數,而是將重心放在了落地上,給人們提供開發AI應用的工具,則是百度推動AI大模型落地的關鍵。
本文引用地址:http://www.104case.com/article/202404/457774.htm4月16日,Create 2024 百度AI開發者大會在深圳舉行。從現場人流量可以看出,AI依然是科技圈頂流。現場嘉賓中,有企業高管,有技術人員,有銷售人員,有高校學生……所有人都在學習AI大模型,都在尋覓AI大模型的機會。
自去年以來,諸多熱門AI大模型技術持續占據媒體頭條,對普通人來說卻遙不可及。當所有人都在仰望神壇上的AI大模型技術時,百度決定要讓AI技術走下神壇,這正是李彥宏的演講主題《人人都是開發者》所表達的愿景。
李彥宏沒有過多地介紹文心大模型的技術優勢,而是將主題圍繞開發者,將更多時間給到了“工具”。
為什么要讓工具成為這屆開發者大會的主角?用李彥宏的話說是:"大語言模型本身并不直接創造價值,基于大模型開發出來的AI原生應用才能滿足真實的市場需求。”根據過去一年的實踐,踩了無數的坑,交了高昂的學費后,百度積累了基于大模型開發AI原生應用的思路,并帶來三大AI開發神器:智能體開發工具AgentBuilder、AI原生應用開發工具AppBuilder、各種尺寸的模型定制工具ModelBuilder。
三大AI開發神器,讓“人人都是開發者”不是夢
在2023年10月,百度發布了文心大模型4.0版本。為了推動AI大模型落地,李彥宏提出了AI原生應用概念,他認為大模型技術和AI原生應用是一體兩面、共生共存:前者的理解、生成、邏輯、記憶四大能力的進步是AI原生應用不可或缺的生存土壤;反過來,如果沒有AI原生應用在各個場景的落地、普及,大模型技術也就失去了現實意義。
簡單地說,AI原生應用之于大模型技術,如同App之于移動互聯網。所有應用都值得用AI重做一遍,在AI大模型上也將長出截然不同的新應用。
然而,對于絕大多數企業與個體來說,開發App本身就是高門檻的事,基于大模型開發AI原生應用,門檻更是指數級上升:大模型技術新,人才本就奇缺,大模型技術還高度復雜、且日新月異,開發難度更高,很多學計算機類專業的程序員在未經專業培訓時都難以掌握。
提供專門的AI原生應用開發工具就成為大模型落地的燃眉之急。2023年10月提出AI原生應用概念時,百度就意識到這一問題,且提出了要讓AI原生應用開發更敏捷的目標。隨著代碼大模型技術本身的快速升級,百度如今推出了可以讓人人成為開發者的系列AI開發工具。
1、AgentBuilder是人人可用的智能體開發工具,用戶不需掌握任何編程技術,即可用“對話式交互”的模式,用自然語言輸入指令創造AI原生應用。目前已有新加坡旅游局、啟德教育和索菲亞等上萬家企業、5萬多名開發者基于AgentBuilder開發智能體,最快5分鐘即可創建完成。
2、AppBuilder是目前最好用的AI原生應用開發工具。百度已提前將開發AI原生應用所需的組件和框架封裝在AppBuilder中,開發者最快三步就可以開發一個AI原生應用,且依然是自然語言編程。李彥宏在現場基于AppBuilder進行AI原生應用開發實戰,演示了“游樂場排隊助手”、華北電力大學“華電AI助理”和百度文庫智能漫畫生成三個AI原生應用的創建過程。
3、ModelBuilder是面向專業開發者的模型定制工具,其預置了最全面最豐富的大模型(高達77個),包括旗艦基礎大模型ERNIE3.5、ERNIE4.0,百度旗下的多款輕量級大模型以及垂直模型,以及第三方主流模型。ModelBuilder可以根據開發者的需求定制任意尺寸的模型,并根據細分場景對模型進一步精調,達到更好的效果,李彥宏在現場展示了基于ModelBuilder開發教育行業的“作文批改助手”,不僅可以擁有更專業的老師點評思維、做到格式遵循,而且相比未精調模型,精調后的模型打分與真實的老師點評分數更為接近。
AgentBuilder、AppBuilder、ModelBuilder三大AI開發神器的底層,則是強大的代碼大模型技術。據李彥宏介紹,文心大模型快速進化,其中“代碼”是重要升級領域,其在代碼生成、代碼解釋、代碼優化等通用能力方面實現了進一步的顯著提升,達到國際領先水平。
在一年多前,百度就基于文心大模型推出智能代碼助手Comate,支持100多種語言和主流IDE平臺,可推薦代碼、生成代碼注釋、進行代碼續寫、查找代碼缺陷、給出優化方案,還可深度解讀代碼庫、關聯私域知識生成新代碼,目前已被百度自身,以及喜馬拉雅、三菱電梯、軟通動力等上萬家企業應用,生成代碼采納率達46%,百度每天新增代碼中已有27%由其生成。
在開發者大會上,李彥宏還發布了文心大模型4.0的工具版,讓開發者可在工具版上使用代碼解釋器功能,通過自然語言交互實現對復雜數據和文件的處理與分析,還可以生成圖表或文件,能夠快速洞察數據中的特點、分析變化趨勢。
隨著大模型在代碼領域的持續進階,以及AgentBuilder、AppBuilder這樣的低門檻甚至零門檻開發工具的出現,自然語言編程不再是夢想,每個人都可以使用自然語言來表達自己的需求、構建需要的程序,專業程序員則可以靠ModelBuilder專業工具大幅提高效率,減少重復工作,聚焦在業務與創造本身。
正如李彥宏所說:“AI正在掀起一場創造力革命,未來開發應用就像拍個短視頻一樣簡單,人人都是開發者,人人都是創造者。”他甚至樂觀地表示:“你只要會說話,就可以成為一名開發者,用自己的創造力改變世界。”
有了計算機就有了編程的概念。編程語言一直在進化,從最初的二進制,到后來的機器代碼,到匯編語言,再到高級語言。這些年,高級語言也在不斷革新。而編程語言不斷進階的目的,就是為了讓編程難度更低、效率更高。按照這樣的路線來看,人人都掌握的自然語言將是“編程語言”進化的終極形態。
不只是百度意識到這樣的趨勢,此前,英偉達CEO黃仁勛也曾表示,AI可以讓每個人都能編程:“編程語言可以普及成為人類的語言,現在世界上每個人都是程序員。這就是人工智能的奇跡。”
英雄所見略同,百度發布三大AI開發神器,讓“人人都是開發者”變為現實,讓每個人都可以更好地掌控、利用和挖掘AI紅利,創造更好的世界。
不卷參數卷工具,百度成為AI普及的推手
在這屆開發者大會上,李彥宏也有分享百度文心大模型的最新進展。截至目前,文心大模型已經成為了中國最領先、應用最廣泛的AI基礎模型。基于文心大模型的AI原生爆款應用文心一言在發布一年后,用戶數已突破2億,API日均調用量也突破2億,服務客戶數達到了8.5萬,利用千帆平臺開發的AI原生應用數超過了19萬。
絲毫不難發現:百度絲毫沒有要卷大模型參數“堆料”的意思,它分享的核心數據均關系到大模型的應用進展,它正在進行的一切努力也圍繞著大模型落地進行。
首先是提供更全、更好、更智能的應用開發工具。
在“百模大戰”如火如荼且許多大模型走向開源后,當下的市場不再需要更多的基礎大模型。市場真正緊缺的,一個是具有世界級競爭力的頂尖大模型,這是文心大模型努力的方向;另一個則是基于AI大模型的殺手锏應用。只有形成類似于AppStore這樣的繁榮的原生AI應用生態,AI大模型技術才算真正實現了爆發。
然而,AI原生應用開發徹底改變了軟件開發的思路,不再是面向過程也不再是面向對象,而是“面向智能”,開發者需要調用、組合模型的能力來創造應用,傳統的開發工具體系很難適應這樣的新型開發模式。因此,不論是從0到1的新建,抑或是對成熟應用的改造,AI原生應用的構建都必須要有更適合的專業AI大模型應用開發工具,就像網站、軟件、App開發有各自的專門工具體系一樣。
于是我們發現,“工具”成了百度這屆AI開發者大會的最高頻的關鍵詞。
其次是不斷降低大模型成本,讓開發者愿意用、用得起、用得多。
除了降低AI原生應用開發門檻外,百度也在努力降低大模型的計算成本。從“囤卡現象”,到“電力短缺”,諸多與大模型相關的新聞均表明AI大模型應用成本高昂務必。然而,技術普及的關鍵就在于成本降低。從飛機到5G網絡到電動車再到智能駕駛,每一個技術走向爆發都會經歷一個進化曲線:隨著技術不斷發展,產品化與商用化加速促進成本降低,到達一個奇點時,成本出現質變,走向大規模普及。
推動大模型經濟成本降低,百度雙管齊下:
一方面是技術降本。在芯片、框架、模型、應用這四層架構上有著全棧的布局,具備端到端這一模式的先天優勢,基于此可不斷地將模型成本打下來,讓更多人都可以高效、低價地用大模型來做AI應用,且不斷提高文心大模型和文心一言的效率。
另一方面是規模降本。在GPT出圈以前的2019年,百度就已布局大模型技術并推動落地。大模型用得越多越智能,也越便宜。隨著百度大模型技術的規模化落地,技術持續進化的同時成本不斷降低,飛輪效應已然形成。據李彥宏介紹,“相比一年前,文心大模型的算法訓練效率提升到了原來的5.1倍,周均訓練有效率達到98.8%,推理性能提升了105倍,推理的成本降到了原來的1%。也就是說,客戶原來一天調用1萬次,同樣成本現在一天可以調用100萬次。”
最后、建立AI大模型生態,鼓勵AI原生應用創新。
在這屆開發者大會上,李彥宏宣布,第二屆“文心杯”創業大賽正式啟動,這是一個鼓勵開發者基于大模型開發AI原生應用的大賽。2023年5月百度首次啟動“文心杯”創業大賽,一共給15支優勝團隊提供了數千萬元的資金支持。今年百度“文心杯”創業大賽力度更大,首次設立‘特別大獎’,特別優秀的項目,將有機會獲得5000萬人民幣的現金和資源支持。
不論是WEB時代的網站,抑或是移動時代的App,任何應用生態的繁榮都來自于開發者的創新。在AI原生應用生態中,百度一方面提供更強的基礎大模型技術基石,和更成熟的配套開發工具支持,另一方面則營造良好的創新生態,降低開發門檻,吸聚開發者,發揮中國創業者善于做應用落地的優勢,推動大模型上更早長出更多成功的AI原生應用。
李彥宏多年來一直扮演著“AI布道師”角色,自深度學習時代起就一直為AI產業化搖旗吶喊,致力于讓全社會理解AI、重視AI、用好AI。在演講的最后,李彥宏動情地表示:“今天的中國,有10億互聯網用戶,有強大的基礎大模型,有足夠多的AI應用場景,有全球最完備的產業體系,國家也在大力鼓勵和支持‘人工智能+’行動,每一個人,每一家企業,只需要充分利用這些工具,就可以釋放無限的創造力和生產力。”
百度AI的落地范式,行業的游戲規則
2023年,大模型就已成為科技產業的頭等大事,中國興起了如火如荼的“百模大戰”。然而迄今為止,真正讓用戶有感知的AI大模型應用仍是鳳毛麟角。雖然時不時會有類似于Sora、Suno這樣的AI大模型爆款應用或者技術刷屏,但它們大都僅限于“娛樂”,且往往會“曇花一現”,因為無法真正解決用戶生活中面臨的問題,或者沒有給企業帶來任何實質性價值。
由此可見,“落地”依然是大模型以及AI發展的重中之重。行業亟待殺手锏應用的出現,亟待能跑通商業模式的大模型應用,亟待更繁榮的AI應用生態。在這樣的關鍵窗口期,百度旗幟鮮明展現出的AI觀,正是行業需要的AI觀。
當行業在卷開源“重復造輪子”,或者圍繞“比大更大”的參數進行軍備競賽時,百度公然“唱反調”,只做有價值的大模型,號召開發者使用更合適(而不是更大)的模型,讓行業回到理性發展的軌道。
在開發者大會上,李彥宏甚至直言,“開源模型會越來越落后。”在百度看來,未來絕大多數AI原生應用都是MoE的,即大小模型的混用,不依賴一個模型來解決所有問題;小模型推理成本低,響應速度快,在一些特定場景中,經過精調后的小模型,它的使用效果可以比美大模型。基于此,開發者可在強大的基礎模型文心4.0之上,根據需要,兼顧效果、相應速度,推理成本等各種考慮,剪裁出適合各種場景的更小尺寸模型,并且支持精調和post pretrain。這樣通過降維剪裁出來的模型,比直接用開源模型調出來的模型,同等尺寸下,效果明顯更好;同等效果下,成本明顯更低。“所以開源模型會越來越落后。”
在大模型基座研發上,百度在確保文心大模型自主可控、技術領先的同時,強化中文等獨特優勢。同時,圍繞多模態大模型等垂直場景構筑長板優勢,李彥宏在開發者大會上表示:“視覺大模型最大的應用場景是自動駕駛。百度在這個方向上是最好的,是自動駕駛的全球領導者,我們不只訓練AI如何生成視頻,更訓練AI理解真實世界發生的事情并預測未來。”這一點馬斯克也曾發出同樣的感慨,在Sora發布后他在X上直言:特斯拉的視頻生成技術是世界上最好的,甚至超過OpenAI的Sora,原因在于特斯拉擁有強大的自動駕駛技術。
更重要的是,百度將“落地”視作發展大模型AI的頭等大事。技術只有落地才有價值,大模型只有轉化成AI應用才能為人類所用。不論是提出AI原生應用的暢想,抑或是推出成套的AI開發神器,都表明百度在力所能及地推動AI大模型落地。
作為技術領先者的百度,已然成為AI大模型落地的關鍵推手,其AI觀已成為行業游戲規則,將讓AI大模型健康發展,讓AI大模型的普惠時刻更早來臨。
大模型落地不需要“大炮打蚊子”。“適合的才是最好的。”百度以務實的態度,構建基礎大模型和垂直大模型技術基座,同時提供工具鏈支持,讓每個人都有機會挖掘到AI紅利。
毫無疑問,百度走在正確的道路上。
評論