以“具身智能,未來已來”為主題的2025張江具身智能開發(fā)者大會(huì)暨2025國際人形機(jī)器人技能大賽5月29日在上海舉行。2025國際人形機(jī)器人技能大賽設(shè)置5大賽道,覆蓋28個(gè)高難度場(chǎng)景,本次大賽旨在集中展示人形機(jī)器人解決實(shí)際問題的能力和場(chǎng)景應(yīng)用落地能力,助力機(jī)器人產(chǎn)業(yè)向“能看、會(huì)說、有智商”進(jìn)階。
國家地方共建人形機(jī)器人創(chuàng)新中心首席科學(xué)家江磊在接受證券時(shí)報(bào)記者采訪時(shí)表示,上海聚焦人形機(jī)器人在生產(chǎn)制造、服務(wù)場(chǎng)景中的實(shí)際應(yīng)用,強(qiáng)調(diào) “解決實(shí)際問題”。本次大賽設(shè)定商超、藥店、工業(yè)制造等真實(shí)場(chǎng)景任務(wù),以場(chǎng)景驅(qū)動(dòng)行業(yè)回歸實(shí)用。江磊說,公眾需以包容的心態(tài)看待機(jī)器人行業(yè)發(fā)展現(xiàn)狀。行業(yè)的快速發(fā)展僅有3年左右時(shí)間,如同“三歲兒童”,需給予它更長(zhǎng)的時(shí)間發(fā)育。
記者了解到,此次賽事的所有項(xiàng)目均源自企業(yè)實(shí)際需求,每個(gè)賽道都還原了真實(shí)應(yīng)用場(chǎng)景,總體難度較大。因此,機(jī)器人未能完成任務(wù)并非其個(gè)別技術(shù)水平欠佳,而是全行業(yè)尚有提升空間,這也體現(xiàn)了大賽的客觀性和包容性。
在人形機(jī)器人應(yīng)用場(chǎng)景挑戰(zhàn)賽進(jìn)行時(shí),記者看到,機(jī)器人正在裁判員的監(jiān)督下完成汽車貼標(biāo)、料箱搬運(yùn)等高精度任務(wù),另一側(cè)家庭場(chǎng)景則考驗(yàn)機(jī)器人桌面整理、衣物折疊等服務(wù)能力。這些任務(wù),有利于驗(yàn)證當(dāng)下機(jī)器人的負(fù)載、地面適應(yīng)、雙臂協(xié)作等關(guān)鍵能力的實(shí)際水準(zhǔn)。
上海交通大學(xué)學(xué)生張林同團(tuán)隊(duì)一起參加了工業(yè)場(chǎng)景賽,并聚焦汽車貼標(biāo)和零部件上下料兩項(xiàng)任務(wù)。張林對(duì)證券時(shí)報(bào)記者表示,縱觀整場(chǎng)賽事,機(jī)器人多依賴遙操作實(shí)現(xiàn)物料抓取等動(dòng)作,尚未實(shí)現(xiàn)全自主操作,這表明其離真正的落地應(yīng)用仍有一定距離。
“機(jī)器人的自主行為需通過訓(xùn)練實(shí)現(xiàn),但當(dāng)前數(shù)據(jù)集缺失,且算法創(chuàng)新不足,難以支撐機(jī)器人對(duì)復(fù)雜任務(wù)的自主決策。此外,一些機(jī)器人的硬件自由度不足,表明機(jī)械結(jié)構(gòu)、控制精度等也有進(jìn)步空間。”張林表示,相比大語言模型的快速發(fā)展,具身智能(機(jī)器人物理交互)因涉及硬件、算法、數(shù)據(jù)等多維度挑戰(zhàn),落地進(jìn)度相對(duì)滯后。
近年來,機(jī)器人如何進(jìn)入家庭、如何大規(guī)模入駐工業(yè)場(chǎng)景等正成為公眾關(guān)注的焦點(diǎn)。對(duì)此,多名專家在接受證券時(shí)報(bào)記者采訪時(shí)表示,機(jī)器人產(chǎn)業(yè)需要和大模型有機(jī)結(jié)合,形成軟硬協(xié)同和多元場(chǎng)景落地,進(jìn)而搭建起商業(yè)模式的正向閉環(huán)。
千尋智能(杭州)科技有限公司CEO韓峰濤在接受證券時(shí)報(bào)記者采訪時(shí)表示,目前,機(jī)器人硬件相對(duì)成熟,但機(jī)器人表現(xiàn)較“笨”,關(guān)鍵在于智能缺失,這也是行業(yè)的一大瓶頸。
“要解決這一問題,需打造端到端的具身大模型,讓機(jī)器人能理解物理世界的規(guī)律和因果關(guān)系,從而自主調(diào)整動(dòng)作。比如,讓機(jī)器人理解足球并自主完成踢球動(dòng)作,而不是當(dāng)下的依賴遙控?!表n峰濤表示,中國憑借強(qiáng)大的供應(yīng)鏈、團(tuán)隊(duì)和豐富場(chǎng)景,在AI與硬件結(jié)合方面頗具優(yōu)勢(shì)。不過,其中最大的難題是數(shù)據(jù)匱乏。訓(xùn)練大語言模型有互聯(lián)網(wǎng)海量數(shù)據(jù)可用,但機(jī)器人干活的數(shù)據(jù)卻需要重新采集,目前主要通過海量視頻預(yù)訓(xùn)練、遙操作微調(diào)以及強(qiáng)化學(xué)習(xí)來解決數(shù)據(jù)問題。
圍繞上述難題,光輪智能(北京)科技有限公司創(chuàng)始人、CEO楊海波提出了一定的解決方案。楊海波對(duì)證券時(shí)報(bào)記者表示,公司專注于為AI進(jìn)入物理世界提供基于仿真技術(shù)的合成數(shù)據(jù),能通過合成數(shù)據(jù)加速AI大腦訓(xùn)練及落地場(chǎng)景應(yīng)用。
“仿真合成數(shù)據(jù)具有成本優(yōu)勢(shì),無需依賴真實(shí)場(chǎng)景搭建與硬件設(shè)備,資源投入更低,數(shù)據(jù)生成效率更高。此外,仿真合成數(shù)據(jù)是泛化的、多樣的,可自定義各類極端或罕見場(chǎng)景,滿足AI訓(xùn)練對(duì)數(shù)據(jù)多樣性的需求?!睏詈2ū硎荆?dāng)前行業(yè)通過真實(shí)數(shù)據(jù)、仿真合成數(shù)據(jù)、網(wǎng)絡(luò)視頻數(shù)據(jù)共同用于具身智能訓(xùn)練。公司積累了豐富的實(shí)踐經(jīng)驗(yàn),形成了合成數(shù)據(jù)的使用方法論,包括配比和使用順序等。事實(shí)上,具身智能訓(xùn)練階段90%以上使用仿真合成數(shù)據(jù)。