IT之家10月23日消息,英偉達(dá)日前公布了一個(gè)名為Eureka的AI系統(tǒng),該系統(tǒng)以O(shè)penAI的GPT-4為基礎(chǔ),能夠讓機(jī)器人執(zhí)行例如“轉(zhuǎn)筆”、“開(kāi)抽屜”、“拿剪刀”、“雙手互傳球”等30多種復(fù)雜動(dòng)作。


IT之家經(jīng)過(guò)查詢(xún)得知,英偉達(dá)研究院主導(dǎo)開(kāi)發(fā)了Eureka,該AI系統(tǒng)可令開(kāi)發(fā)者配合英偉達(dá)自家物理模擬軟件Isaac Gym進(jìn)行強(qiáng)化學(xué)習(xí)(reference learning)。
英偉達(dá)AI研究部門(mén)資深總監(jiān)Anima Anandkumar認(rèn)為,過(guò)去10年以來(lái)“強(qiáng)化式學(xué)習(xí)”雖然有所進(jìn)展,但仍存在不少挑戰(zhàn),例如“獎(jiǎng)賞設(shè)計(jì)”等環(huán)節(jié),現(xiàn)在還停留在“試錯(cuò)”階段。而目前英偉達(dá)公布的Eureka,則是為執(zhí)行困難的任務(wù)而設(shè)計(jì),結(jié)合生成式AI與強(qiáng)化式學(xué)習(xí)算法,進(jìn)行首次嘗試。
Eureka利用GPT-4生成出的“獎(jiǎng)賞設(shè)計(jì)”方案可助力機(jī)器人的“試錯(cuò)(trial-and-error)”學(xué)習(xí),并能夠起到接替80%人類(lèi)專(zhuān)家的任務(wù),從而使機(jī)器人平均訓(xùn)練效率提升超過(guò)50%。
據(jù)悉,在Eureka生成“獎(jiǎng)賞設(shè)計(jì)”方案時(shí),開(kāi)發(fā)者不需要額外輸入任務(wù)提示或撰寫(xiě)預(yù)定義的獎(jiǎng)賞范本,再結(jié)合人工修正獎(jiǎng)賞,最終使機(jī)器人動(dòng)作更符合開(kāi)發(fā)人員的意圖。
該AI系統(tǒng)配合Issac Gym時(shí),可利用GPU加速進(jìn)行模擬,并針對(duì)大量批次的候選回饋快速評(píng)估品質(zhì),從而提升訓(xùn)練效率,并根據(jù)訓(xùn)練結(jié)果的作出統(tǒng)計(jì)摘要,從而改良“獎(jiǎng)賞方案”,在提升機(jī)器人反應(yīng)水平的同時(shí),令A(yù)I系統(tǒng)適用的機(jī)器人類(lèi)型更為廣泛,例如“走獸型”(四足)、“人型(兩足)”、“四軸飛行器”、手臂型等機(jī)器人都可以搭載Eureka系統(tǒng)。
英偉達(dá)將Eureka進(jìn)行了“開(kāi)源靈敏性標(biāo)竿測(cè)試”,在評(píng)估20種任務(wù)訓(xùn)練結(jié)果后,得出了令人滿(mǎn)意的結(jié)果。
據(jù)此,英偉達(dá)認(rèn)為Eureka可實(shí)現(xiàn)靈巧的機(jī)器人控制,并為動(dòng)畫(huà)作者提供“生成逼真實(shí)體動(dòng)作”的新方法。