新聞中心

        EEPW首頁 > 智能計算 > 業界動態 > 讓AI用視覺認識世界,豆包發布并開源VideoWorld視頻生成模型

        讓AI用視覺認識世界,豆包發布并開源VideoWorld視頻生成模型

        作者: 時間:2025-02-11 來源:福布斯中國 收藏

        2月10日,豆包大團隊聯合北京交通大學、中國科學技術大學,發布了視頻生成——,并且已開源代碼與。

        本文引用地址:http://www.104case.com/article/202502/466831.htm

        與Sora、DALL-E等主流多模態模型不同,開辟了新的路徑,打破對語言模型的依賴,實現僅靠“視覺信息”認知世界。就像幼兒能在不依賴語言的情況下理解真實世界一樣,通過瀏覽視頻數據,讓機器掌握推理、規劃和決策等復雜能力。在僅有300M參數量時,它就已展現出可觀的性能,達到專業5段9x9圍棋水平,還能在多種環境中執行機器人任務。

        在模型構建方面,團隊構建了視頻圍棋對戰和視頻機器人模擬操控兩個實驗環境。訓練時,模型通過“觀看”包含大量視頻演示數據的離線數據集進行學習。其架構采用樸素自回歸模型,包含VQ-VAE編碼器-解碼器和自回歸Transformer架構。

        不過,研究初期發現視頻序列知識挖掘效率低于文本形式,為此團隊引入潛在動態模型(LDM)。LDM夠將幀間視覺變化壓縮為緊湊的潛在編碼,提升知識挖掘效率,還能保留豐富視覺信息,讓VideoWorld可以捕捉視覺序列中的長期依賴關系,從而更好地進行長期推理和規劃。

        通過細致分析,團隊發現LDM不僅能建模訓練集的數據模式,還能幫助模型在測試時進行前向規劃,并且生成因果相關的編碼。盡管VideoWorld在圍棋和模擬機器人操控場景中表現卓越,但團隊也清醒地認識到,在真實世界的應用中,它還面臨高質量視頻生成和多環境泛化等挑戰。不過,團隊已明確未來將聚焦這些難題,致力于讓視頻生成模型成為真實世界的通用知識學習器。

        當下,DeepSeek掀起的行業變革浪潮持續發酵,不僅在人工智能產業鏈內引發連鎖反應,還向其他行業滲透。它的火爆并非源于性能優勢,而是憑借創新性技術路線,以超低算力成本實現超預期效果輸出,為行業發展帶來全新思路。無獨有偶,此次豆包發布的VideoWorld視覺模型同樣開辟了全新技術路徑,打破對語言模型的依賴,僅靠視覺信息就讓機器實現對世界的認知并掌握復雜能力,有望進一步夯實了國產大模型在多模態領域的技術實力。



        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 方正县| 大洼县| 隆安县| 鹤峰县| 桦甸市| 广南县| 习水县| 前郭尔| 田东县| 凤翔县| 恭城| 金平| 永登县| 革吉县| 奇台县| 大宁县| 庆安县| 和林格尔县| 莆田市| 富裕县| 吐鲁番市| 堆龙德庆县| 志丹县| 剑阁县| 连城县| 裕民县| 衡阳县| 鹤岗市| 白银市| 东莞市| 武川县| 恩平市| 深州市| 广德县| 萨迦县| 涿鹿县| 台安县| 建昌县| 电白县| 平原县| 郯城县|