
AI大模型從語音、視覺、決策、控制等多方面實現(xiàn)同人形機(jī)器人的結(jié)合,形成感知、決策、控制閉環(huán),使機(jī)器人具備常識。1)語音:語言大模型為機(jī)器人的自主語音交互難題提供了解決方案,在上下文理解、多語種識別、多輪對話、情緒識別、模糊語義識別等通用語言任務(wù)上,ChatGPT顯著優(yōu)于深度學(xué)習(xí),表現(xiàn)出了不亞于人類的理解力和語言生成能力。2)視覺:人形機(jī)器人的場景相對工業(yè)機(jī)器人更通用、更復(fù)雜,通用視覺大模型的AllinOne的多任務(wù)訓(xùn)練方案能使得機(jī)器人更好地適應(yīng)人類生活場景:大模型的強(qiáng)擬合能力使人形機(jī)器人在進(jìn)行目標(biāo)識別、避障、三維重建、語義分割等任務(wù)時,具備更高的精確度;通用視覺大模型通過大量數(shù)據(jù)學(xué)到更多的通用知識,并遷移到下游任務(wù)中,基于海量數(shù)據(jù)獲得的預(yù)訓(xùn)練模型具有較好的知識完備性,提升場景泛化效果。3)決策:基于多模態(tài)的預(yù)訓(xùn)練大模型將增強(qiáng)機(jī)器人可完成任務(wù)的多樣性與通用性,讓其不局限于文本和圖像等單個部分,而是多應(yīng)用相容,拓展單一智能為融合智能,使機(jī)器人能結(jié)合其感知到的多模態(tài)數(shù)據(jù)實現(xiàn)自動化決策。
驅(qū)動:相比工業(yè)機(jī)器人,人形機(jī)器人硬件需求更復(fù)雜、更多元,特斯拉采用的電驅(qū)方案具備商業(yè)化應(yīng)用基礎(chǔ)。特斯拉Optimus采取電驅(qū)方案,預(yù)計全身共40個執(zhí)行器,其中:身體關(guān)節(jié)28個執(zhí)行器,旋轉(zhuǎn)關(guān)節(jié)方案采用伺服電機(jī)+減速器方案,我們推測單臺人形機(jī)器人將搭載6臺RV減速器(髖、腰腹)和8臺諧波減速器(肩、腕);我們猜測擺動角度不大的關(guān)節(jié)(膝、肘、踝、腕)采用力矩電機(jī)+行星滾柱絲杠方案,將使用14個線性執(zhí)行器。2)機(jī)械手采用微型電機(jī)+腱繩驅(qū)動傳動結(jié)構(gòu),單手6個電機(jī),11個自由度??招谋姍C(jī)結(jié)構(gòu)緊湊、能量密度高、能耗低,和人形機(jī)器人機(jī)械手需求契合度高。
減速器、伺服電機(jī)、線性執(zhí)行器、滾柱絲杠是人形機(jī)器人的運動控制產(chǎn)業(yè)鏈中價值量較大的硬件設(shè)備。1)電機(jī):數(shù)量更多、品類更豐富,需滿足全身各關(guān)節(jié)的驅(qū)動需求,手部需采用微型電機(jī)。2)減速器、傳動裝置:數(shù)量更多,旋轉(zhuǎn)執(zhí)行器延續(xù)了對RV、諧波減速器的需求,線性執(zhí)行器中需要用到行星滾柱絲杠作為線性傳動裝置。3)環(huán)境感知:區(qū)別工業(yè)機(jī)器人在固定場景外接機(jī)器視覺設(shè)備實現(xiàn)識別的方案,人形機(jī)器人場景復(fù)雜,需采用激光雷達(dá)、攝像頭等方案實現(xiàn)環(huán)境感知、三維重建并實現(xiàn)路徑規(guī)劃,對設(shè)備品類、算法、實時算力要求更高。4)運動控制:類似于工業(yè)機(jī)器人,運控算法均是廠商自研,開發(fā)難度大,是核心競爭力之一;特斯拉Optimus復(fù)用特斯拉汽車的感知和計算能力,在全自動駕駛FSD芯片基礎(chǔ)上開發(fā)適合人形機(jī)器人的控制器系統(tǒng)。人形機(jī)器人傳感器數(shù)量、品類、執(zhí)行機(jī)構(gòu)復(fù)雜程度遠(yuǎn)高于工業(yè)機(jī)器人,對控制器實時算力、集成度要求高。