做了40年機(jī)器人相關(guān)研究的張正友,罕見出現(xiàn)在了WAIC的騰訊論壇。
2018年初,騰訊創(chuàng)始人馬化騰做出了一個重要決定——成立騰訊Robotics X實驗室。自那之后,作為騰訊首席科學(xué)家的張正友便為實驗室定下了一個“十年規(guī)劃”,到現(xiàn)在,正好七年。
近日具身智能燃爆世界人工智能大會,作為AI應(yīng)用大廠,這屆WAIC騰訊也有新動作——推出了具身智能開放平臺Tairos。但對于騰訊來說,其對于具身智能的布局并非僅僅是外界看到的Tairos這么簡單,騰訊在具身智能上的“野心”也隨之鋪開:
1. 騰訊戰(zhàn)略層面如何看待具身智能?
2. Tairos承擔(dān)了什么角色,為何此時推出?
3. 騰訊會做機(jī)器狗之類的具身智能硬件嗎?
借著WAIC的契機(jī),張正友現(xiàn)場回應(yīng)了騰訊戰(zhàn)略層面在具身智能上的諸多思考。
不做機(jī)器狗,但有原型機(jī)
“要不要做一個機(jī)器狗?從我的角度是不支持去做的,不值得去做的,我自己也不會做。因為還有更大的目標(biāo)在支撐著我們?!睆堈衙鞔_表示。
他認(rèn)為,騰訊在WAIC推出具身智能開放平臺Tairos就是向外界明確一個信號:騰訊的定位是具身智能平臺,而非本體競爭者。也就是說,騰訊不直接參與本體硬件的量產(chǎn),不在本體硬件上鏖戰(zhàn),而是聚焦于軟件能力不斷進(jìn)化和開放。
張正友指出,騰訊更傾向于將自身的能力以平臺的形式輸出,幫助其他企業(yè)在具身智能領(lǐng)域更好地發(fā)展。而現(xiàn)場演示互動的小五機(jī)器人,更多是作為一個研究原型,用于內(nèi)部的技術(shù)驗證和探索,與真正面向市場的產(chǎn)品有著本質(zhì)區(qū)別。
據(jù)了解,小五機(jī)器人目前探索的場景包括養(yǎng)老、家居等。之所以選擇養(yǎng)老等復(fù)雜場景作為具身智能技術(shù)牽引的方向,是因為養(yǎng)老場景對機(jī)器人的交互安全性和魯棒性要求極高,任何失誤都可能帶來嚴(yán)重后果。張正友提到,騰訊有著“十年規(guī)劃”的長期目標(biāo),希望通過在養(yǎng)老等復(fù)雜場景的應(yīng)用,不斷打磨技術(shù),使其更加成熟可靠。
“像調(diào)酒機(jī)器人,我們最終不會去做調(diào)酒機(jī)器人(的本體量產(chǎn)),但之所以有調(diào)酒機(jī)器人(的場景研發(fā)),是去展示技術(shù)的靈巧性和觸覺各方面的能力。”張正友重申。未來,騰訊Robotics X實驗室還會繼續(xù)做一些展示性的、研究性的硬件,“假如一開始停留在Max腿輪一體化機(jī)器狗的本體量產(chǎn),那后面就沒精力去做其他東西了……我們踩了很多坑,這些都是很寶貴的經(jīng)驗?!睆堈颜f。
為什么現(xiàn)在開放“鈦螺絲”
在不斷積累和探索中,騰訊Robotics X實驗室走過了7年,沉淀了多模態(tài)感知、規(guī)劃、感知行動聯(lián)合三大核心模型,以及虛實融合仿真平臺。去年推出的原型機(jī)小五機(jī)器人正整合了其前四代機(jī)器人,四足機(jī)器人Jamoca、輪腿式機(jī)器人Ollie、靈巧手TRX-Hand等的核心技術(shù)積累。
而真正推動Tairos(中文名:鈦螺絲)開放的另一個原因,是在走訪六七十家企業(yè)后,騰訊看到了市場的真實需求?!霸诰呱碇悄苌戏e累的技術(shù)經(jīng)驗,除了騰訊自己需要,他們(走訪企業(yè))很多都缺乏這些工具?!睆堈颜f。
從行業(yè)看,當(dāng)前具身智能面臨核心技術(shù)瓶頸。首先是3D世界動態(tài)建模,機(jī)器人需要準(zhǔn)確感知和理解3D環(huán)境的動態(tài)變化,這對傳感器和算法都提出很高要求。其次,觸覺傳感器標(biāo)準(zhǔn)化也是難題,不同觸覺傳感器在性能和數(shù)據(jù)格式上存在差異,難以實現(xiàn)統(tǒng)一應(yīng)用和開發(fā)。此外,模型泛化能力不足,使得機(jī)器人在面對新場景和任務(wù)時表現(xiàn)往往不盡如人意。
除了核心技術(shù)瓶頸,具身智能行業(yè)還面臨共性挑戰(zhàn)。例如,數(shù)據(jù)量需求大,訓(xùn)練高效具身智能模型需要大量數(shù)據(jù)支持;端到端模型的限制,使得模型可解釋性和可擴(kuò)展性較差。
面對這些難題,沒有任何企業(yè)能完整打通端到端技術(shù)鏈條。加速具身智能的最快方法,就是開放。
“我們的目的不是要超越所有機(jī)器人、具身智能公司或研究機(jī)構(gòu)。某公司感知行動做得很好,可能比我們還優(yōu)秀,那他們就不需要用我的,用感知大模型和規(guī)劃大模型即可?!睆哪K化角度看,傳統(tǒng)機(jī)器人平臺往往需要大量數(shù)據(jù)和復(fù)雜編程適配不同本體,而Tairos平臺采用模塊化設(shè)計,企業(yè)可根據(jù)需求選擇模塊,只需少量數(shù)據(jù)即可完成適配。
“具身智能對數(shù)據(jù)的需求量無法降低,很多都希望完全端到端訓(xùn)練具身智能模型,但從感知到規(guī)劃很難完全端到端實現(xiàn),需要的數(shù)據(jù)量太大,這也是開放平臺的價值。”
根據(jù)騰訊披露的信息,其將五代機(jī)器人技術(shù)積累封裝在Tairos平臺中,平臺具備模塊化功能,合作伙伴可各取所需。具身智能產(chǎn)業(yè)鏈上的軟件商如研發(fā)新模型,也可接入平臺,并利用平臺自有的仿真數(shù)據(jù)、真實數(shù)據(jù)等優(yōu)化模型,再賦能其他機(jī)器人廠商。
技術(shù)開放應(yīng)用并非“開閘放水”般簡單。騰訊介紹,從今年初開始便與種子企業(yè)深度合作,對具身智能技術(shù)進(jìn)行打磨,已探索出最佳應(yīng)用模式。如今開放鈦螺絲,標(biāo)志著平臺從“種子打磨”進(jìn)入“標(biāo)準(zhǔn)化鋪量”階段?!斑@次展會和會場PPT都展示了當(dāng)前合作情況,部分產(chǎn)品標(biāo)準(zhǔn)化后便可穩(wěn)步推進(jìn)鋪量?!彬v訊表示。
以宇樹機(jī)器人為例,通過接入Tairos平臺,它能快速實現(xiàn)新功能開發(fā)和優(yōu)化。這得益于平臺虛實融合特性構(gòu)建的仿真-真實閉環(huán):在虛擬環(huán)境完成測試訓(xùn)練后,可直接將成果應(yīng)用于真實機(jī)器人?,F(xiàn)場接入Tairos的宇樹機(jī)器人G1在無操控狀態(tài)下,展示了多模態(tài)感知與規(guī)劃能力。
泡沫是必經(jīng)之路,人形或許不是終極形態(tài)
WAIC具身智能場館的火爆,某種程度上折射出行業(yè)可能存在過熱現(xiàn)象。人們甚至對賽道產(chǎn)生困惑:在無法預(yù)知未來時,盲目探索價值何在?
“就像Blackberry或Pocket PC,難道那算是失敗嗎?沒有那個過程,后來怎會有iPhone、安卓手機(jī)?這是探索過程。本體的探索需要持續(xù)投入。”張正友表示。若類比通信設(shè)備演化,具身智能似乎正處于大哥大時代前夜。
大哥大時代用戶相對富裕且形成規(guī)模。當(dāng)前機(jī)器人尚未達(dá)到這種程度,人形機(jī)器人大多處于數(shù)據(jù)采集、科研、導(dǎo)覽階段。Tairos平臺希望助推行業(yè)進(jìn)入大哥大時代。其標(biāo)志是:無論養(yǎng)老或工業(yè)領(lǐng)域,場景足夠大、能量產(chǎn)、成本可控后,才能真正進(jìn)入千家萬戶。
“我有生之年都會看到,你們更不用說?!睆堈驯硎?。今年備受關(guān)注的機(jī)器人馬拉松仍存在人為操控,他預(yù)計明年“不需要后方遙控”,主要需提升感知能力。
不過他認(rèn)為,行業(yè)不應(yīng)被“仿生”限制對具身智能終極形態(tài)的想象。人類雙足人形是經(jīng)過千萬年演化的復(fù)雜環(huán)境生存形態(tài),但現(xiàn)代人居環(huán)境已大變樣,雙足效率可能變低。在形態(tài)探索中,Robotics研發(fā)腿輪一體化(兼具輪與腿)機(jī)器人,不為仿生,而是探索更適合人居環(huán)境的具身智能形態(tài)。
張正友假設(shè),除腿輪外,具身智能可更快進(jìn)化出屏幕——
“若用語言與機(jī)器人交互,會被一分鐘百字的語速限制;但若機(jī)器人有屏幕展示文字信息,每分鐘閱讀三百字都不成問題。為什么不將現(xiàn)有技術(shù)整合到機(jī)器人上?為何必須雙足人形?為何必須語言對話?”