
AI大模型從語音、視覺、決策、控制等多方面實現同人形機器人的結合,形成感知、決策、控制閉環(huán),使機器人具備常識。1)語音:語言大模型為機器人的自主語音交互難題提供了解決方案,在上下文理解、多語種識別、多輪對話、情緒識別、模糊語義識別等通用語言任務上,ChatGPT顯著優(yōu)于深度學習,表現出了不亞于人類的理解力和語言生成能力。2)視覺:人形機器人的場景相對工業(yè)機器人更通用、更復雜,通用視覺大模型的AllinOne的多任務訓練方案能使得機器人更好地適應人類生活場景:大模型的強擬合能力使人形機器人在進行目標識別、避障、三維重建、語義分割等任務時,具備更高的精確度;通用視覺大模型通過大量數據學到更多的通用知識,并遷移到下游任務中,基于海量數據獲得的預訓練模型具有較好的知識完備性,提升場景泛化效果。3)決策:基于多模態(tài)的預訓練大模型將增強機器人可完成任務的多樣性與通用性,讓其不局限于文本和圖像等單個部分,而是多應用相容,拓展單一智能為融合智能,使機器人能結合其感知到的多模態(tài)數據實現自動化決策。
驅動:相比工業(yè)機器人,人形機器人硬件需求更復雜、更多元,特斯拉采用的電驅方案具備商業(yè)化應用基礎。特斯拉Optimus采取電驅方案,預計全身共40個執(zhí)行器,其中:身體關節(jié)28個執(zhí)行器,旋轉關節(jié)方案采用伺服電機+減速器方案,我們推測單臺人形機器人將搭載6臺RV減速器(髖、腰腹)和8臺諧波減速器(肩、腕);我們猜測擺動角度不大的關節(jié)(膝、肘、踝、腕)采用力矩電機+行星滾柱絲杠方案,將使用14個線性執(zhí)行器。2)機械手采用微型電機+腱繩驅動傳動結構,單手6個電機,11個自由度??招谋姍C結構緊湊、能量密度高、能耗低,和人形機器人機械手需求契合度高。
減速器、伺服電機、線性執(zhí)行器、滾柱絲杠是人形機器人的運動控制產業(yè)鏈中價值量較大的硬件設備。1)電機:數量更多、品類更豐富,需滿足全身各關節(jié)的驅動需求,手部需采用微型電機。2)減速器、傳動裝置:數量更多,旋轉執(zhí)行器延續(xù)了對RV、諧波減速器的需求,線性執(zhí)行器中需要用到行星滾柱絲杠作為線性傳動裝置。3)環(huán)境感知:區(qū)別工業(yè)機器人在固定場景外接機器視覺設備實現識別的方案,人形機器人場景復雜,需采用激光雷達、攝像頭等方案實現環(huán)境感知、三維重建并實現路徑規(guī)劃,對設備品類、算法、實時算力要求更高。4)運動控制:類似于工業(yè)機器人,運控算法均是廠商自研,開發(fā)難度大,是核心競爭力之一;特斯拉Optimus復用特斯拉汽車的感知和計算能力,在全自動駕駛FSD芯片基礎上開發(fā)適合人形機器人的控制器系統(tǒng)。人形機器人傳感器數量、品類、執(zhí)行機構復雜程度遠高于工業(yè)機器人,對控制器實時算力、集成度要求高。