新聞中心

EEPW首頁 > 機器人 > 業界動態 > Google新機器人AI可在沒有云情況下運行，并仍可系鞋帶

Google新機器人AI可在沒有云情況下運行，并仍可系鞋帶

—— 谷歌的 Carolina Parada 表示，Gemini 已經實現了巨大的機器人技術突破，例如新的設備端 AI。

作者：時間：2025-06-25 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

我們有時將 Gemini 和 ChatGPT 等聊天機器人稱為“機器人”，但生成式 AI 在真實的物理機器人中也發揮著越來越大的作用。在今年早些時候宣布 Gemini Robotics 之后，Google DeepMind 現在推出了一種新的設備上 VLA（視覺語言動作）模型來控制機器人。與之前的版本不同，它沒有云組件，允許機器人完全自主運行。

本文引用地址：http://www.104case.com/article/202506/471670.htm

Google DeepMind 機器人技術負責人 Carolina Parada 表示，這種 AI 機器人技術方法可以使機器人在具有挑戰性的情況下更加可靠。這也是 Google 機器人模型的第一個版本，開發人員可以根據其特定用途進行調整。

機器人技術是 AI 的一個獨特問題，因為機器人不僅存在于物理世界中，而且還會改變其環境。無論您是讓它四處移動積木還是系鞋帶，都很難預測機器人可能遇到的每一種可能性。使用強化訓練機器人動作的傳統方法非常緩慢，但生成式 AI 允許更大的泛化。

“它借鑒了 Gemini 的多模態世界理解，以完成一項全新的任務，”Carolina Parada 解釋說?！斑@使得 Gemini 能夠以同樣的方式生成文本、寫詩、總結一篇文章，還可以編寫代碼，還可以生成圖像。它還可以生成機器人動作。

通用機器人，無需云

在之前的 Gemini Robotics 版本（仍然是 Google 機器人技術的“最佳”版本）中，這些平臺運行了一個混合系統，其中一個小模型在機器人上，一個較大的模型在云中運行。您可能已經看到聊天機器人在生成輸出時“思考”了可測量的幾秒鐘，但機器人需要快速反應。如果您告訴機器人拾取并移動對象，則不希望它在生成每個步驟時暫停。本地模型允許快速適應，而基于服務器的模型可以幫助完成復雜的推理任務。Google DeepMind 現在正在將本地模型作為獨立的 VLA 發布，而且它非常強大。

新的 Gemini Robotics On-Device 模型的準確性僅比混合動力版本差一點。根據 Parada 的說法，許多任務都是開箱即用的?！爱斘覀兣c機器人一起玩時，我們看到它們能夠理解新情況的能力出奇地大，”Parada 告訴 Ars。

通過發布帶有完整 SDK 的模型，該團隊希望開發人員能夠為 Gemini 驅動的機器人提供新任務，并向它們展示新環境，這可能會揭示與模型的庫存調整不起作用的作。借助 SDK，機器人研究人員將能夠通過低至 50 到 100 次演示使 VLA 適應新任務。

新的 Robotics On-Device 模型幾乎與具有云處理功能的混合模型一樣具有適應性。來源：谷歌

AI 機器人的“演示”與 AI 研究的其他領域略有不同。Parada 解釋說，演示通常涉及遠程作機器人 — 手動控制機器以完成任務，調整模型以自主處理該任務。雖然合成數據是 Google 培訓的一個元素，但它并不能替代真實數據?！拔覀內匀话l現，在最復雜、最靈巧的行為中，我們需要真實的數據，”Parada 說。“但是，你可以用仿真做很多事情。”

但這些高度復雜的行為可能超出了設備上的 VLA 的能力范圍。它應該沒有問題，可以進行簡單的作，例如系鞋帶（AI 機器人的傳統困難任務）或折疊襯衫。但是，如果您想讓機器人為您制作三明治，則可能需要一個更強大的模型來完成將面包放在正確位置所需的多步驟推理。

該團隊認為 Gemini Robotics On-Device 非常適合與云連接不穩定或不存在的環境。在本地處理機器人的視覺數據也更有利于隱私，例如，在醫療保健環境中。

構建安全的機器人

安全始終是 AI 系統關注的問題，無論是提供危險信息的聊天機器人還是成為終結者的機器人。我們都見過生成式 AI 聊天機器人和圖像生成器在其輸出中產生幻覺，為 Gemini Robotics 提供支持的生成系統也不例外——該模型并非每次都做對，但給模型一個帶有冰冷、無情的金屬抓取器的物理體現會使問題變得更加棘手。

為了確保機器人安全運行，Gemini Robotics 采用了多層方法。“使用完整的 Gemini Robotics，您正在連接到一個模型，該模型正在推理什么是安全的，”Parada 說?！叭缓竽阕屗c實際產生選項的 VLA 交談，然后 VLA 調用一個低級控制器，該控制器通常具有安全關鍵組件，例如您可以移動多少力或可以移動這個臂的速度?！?/p>

重要的是，新的設備端模型只是一個 VLA，因此開發人員將自行構建安全。不過，谷歌建議他們復制 Gemini 團隊所做的。建議早期測試程序中的開發人員將系統連接到標準 Gemini Live API，其中包括一個安全層。他們還應該實施一個低級控制器，用于關鍵的安全檢查。

任何有興趣測試 Gemini Robotics On-Device 的人都應該申請加入 Google 的可信測試員計劃。Google 的 Carolina Parada 表示，過去三年中，機器人技術取得了許多突破，而這僅僅是個開始——Gemini Robotics 的當前版本仍然基于 Gemini 2.0。Parada 指出，Gemini Robotics 團隊通常落后于 Gemini 開發一個版本，而 Gemini 2.5 被認為在聊天機器人功能方面取得了巨大改進。也許機器人也會如此。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>