據(jù)央視新聞報道,近日,我國科研團隊在機器人算法領(lǐng)域取得重大突破,提出全球首個“力位混合控制算法的統(tǒng)一理論”。
該算法無需依賴力傳感器,就能讓機器人同時學習位置與力的控制,相關(guān)任務成功率較只使用位置控制的策略提高了約 39.5%。更值得關(guān)注的是,其相關(guān)論文目前已斬獲國際機器人學習大會杰出論文獎,這也是該獎項設(shè)立以來,首次由全中國籍學者團隊摘得。
科研人員介紹,當前廣泛應用的視覺-語言-動作模型(VLA),在應對現(xiàn)實生活中的諸多任務時,往往會顯得“力不從心”,核心問題就在于這些任務大多涉及復雜的接觸場景。比如,擦黑板時,機械臂必須既貼合表面又保持適當?shù)膲毫?;開關(guān)柜門,需精準感知內(nèi)部的推拉彈簧結(jié)構(gòu)。機器人需要的不僅是“走到哪里”“手伸到哪里”,還需要理解“該用多大的力”。而在沒有力位混合控制算法前,這些都需要通過力傳感器來解決。
IT之家查詢獲悉,通研院提出首個統(tǒng)一的力位混合控制算法,能夠在無需力傳感器的條件下,同時學習位置與力的控制。該研究通過強化學習,訓練策略從機器人歷史狀態(tài)中估計力,并借助位置與速度調(diào)整進行補償,從而模擬多種位置、力指令及外部擾動。該策略可實現(xiàn)位置跟蹤、施力、力跟蹤和柔順交互等多種操作行為。此外,力估計模塊引入的接觸信息提升了基于軌跡的模仿學習效果,在四項接觸豐富的操作任務中,成功率比僅使用位置控制的策略提高約 39.5%。
本研究提出了 UniFP(Unified Force and Position Control Policy)。這是足式機器人第一個能夠在單一框架下統(tǒng)一處理力與位置的控制算法。它的核心靈感來自阻抗控制。阻抗控制的思想是把機器人末端執(zhí)行器與環(huán)境之間的交互視作一個彈簧–阻尼–質(zhì)量系統(tǒng),通過控制偏差來同時調(diào)節(jié)位置與力。
在 UniFP 中,只考慮末端執(zhí)行器低速移動的問題,忽略速度和加速度項,把期望的位置、位置指令和力指令、外部的接觸力統(tǒng)一寫進了一個公式,讓策略既能完成軌跡跟隨,又能根據(jù)接觸情況自動調(diào)節(jié)。同時通過一個力估計器,利用機器人歷史狀態(tài)信息和動作信息估計出受到的合外力。這樣一來,機器人不再是“機械地走完路徑”,而是能夠感知并主動對環(huán)境施加力,回應環(huán)境。
該研究在 Unitree B2-Z1 四足操控平臺和 Unitree G1 人形機器人上開展了七項實驗任務。在擦黑板任務中,位置控制的策略要么擦不干凈,要么用力過大,而 UniFP 能保持穩(wěn)定的接觸壓力,把黑板徹底擦干凈。在開關(guān)柜門任務中,視覺方法根本無法識別微小的推拉式彈簧,而 UniFP 通過力估計器準確地觸發(fā)開關(guān)。在抽屜被遮擋的場景下,基線方法成功率急劇下降到 0.3,而 UniFP 借助力感知將成功率提升到 0.76。
論文地址:https://arxiv.org/pdf/2505.20829
項目地址:https://unified-force.github.io/
主要作者:通研院研究員智佩淵、通研院-北京郵電大學“通計劃”24 級聯(lián)培博士生李佩洋
通訊作者:通研院研究員賈寶雄、通研院具身機器人中心主任黃思遠