谷歌 DeepMind 團隊(9 月 25 日)發(fā)布博文,宣布推出 Gemini Robotics 1.5 與 Gemini Robotics-ER 1.5 兩款專為物理世界設(shè)計的 AI 新模型,旨在打造能夠感知、規(guī)劃、思考并行動的物理智能體。
IT之家援引博文介紹,這兩款模型協(xié)同工作,致力于讓通用型機器人能夠更高效地解決現(xiàn)實世界中的復(fù)雜多步任務(wù),新系統(tǒng)采用了一種創(chuàng)新的“大腦-身體”協(xié)作框架。
其中,Gemini Robotics-ER 1.5 模型扮演著“高層大腦”的角色,它精通物理環(huán)境中的規(guī)劃與決策,擁有業(yè)界領(lǐng)先的空間理解能力。
例如,當機器人被要求“根據(jù)我所在地的規(guī)定,將這些物品分類到正確的垃圾箱”時,ER 1.5 會主動上網(wǎng)搜索本地垃圾分類指南,然后制定詳細的執(zhí)行計劃。
隨后,“大腦”會將計劃分解為一步步的自然語言指令,傳遞給扮演“身體”角色的 Gemini Robotics 1.5 模型。
這是一個視覺-語言-行動(VLA)模型,它負責(zé)接收指令,并將其直接轉(zhuǎn)化為機器人的具體運動指令。這一流程不僅實現(xiàn)了高效分工,還讓機器人的行動邏輯更加清晰。
Gemini Robotics 1.5 的一項核心突破是具備“先思考后行動”的能力。在執(zhí)行任務(wù)前,它能以自然語言生成一套內(nèi)部推理與分析序列,從而更好地理解任務(wù)的深層語義。
例如,在執(zhí)行“按顏色對衣物分類”任務(wù)時,模型會先思考“白色衣服放入白桶,其他顏色放入黑桶”,然后再規(guī)劃“拿起紅色毛衣放入黑桶”的具體步驟。這種能力不僅提升了任務(wù)成功率,還讓其決策過程更加透明,機器人甚至能解釋自己的行為邏輯。
Gemini Robotics 1.5 展現(xiàn)了卓越的跨機器人形態(tài)學(xué)習(xí)能力。傳統(tǒng)上,為一個機器人學(xué)習(xí)的動作很難直接遷移到另一個形態(tài)不同的機器人上。
而新模型打破了這一限制,它將在某個機器人(如 ALOHA 2)上學(xué)到的技能,成功遷移至外形和自由度完全不同的機器人(如 Apollo 人形機器人和 Franka 雙臂機器人)上,無需針對新型號進行專門訓(xùn)練,從而極大地加速了新技能的學(xué)習(xí)和部署。
谷歌強調(diào),在發(fā)展 embodied AI(具身人工智能)潛力的同時,公司正積極構(gòu)建新的安全與對齊方法。Gemini Robotics 1.5 實施了一套整體安全策略,包括行動前思考安全、遵循現(xiàn)有安全政策以及在必要時觸發(fā)機器人內(nèi)置的低級安全子系統(tǒng)。
Gemini Robotics-ER 1.5 目前已通過 Gemini API 向開發(fā)者開放,而 Gemini Robotics 1.5 則提供給部分合作伙伴使用。