自主移動機器人的基本要求之一是其導(dǎo)航能力。機器人必須能夠按照給定的坐標從當前位置導(dǎo)航到地圖上指定的目標位置,同時還要避開周圍的障礙物。在某些情況下,需要機器人能夠以較高的導(dǎo)航速度盡快到達目的地。然而,導(dǎo)航速度較快的機器人通常具有較高的碰撞風(fēng)險,額能會影響到機器人和周圍環(huán)境。
為了解決這個問題,豐橋工業(yè)大學(xué)(TUT)計算機科學(xué)與工程系主動智能系統(tǒng)實驗室(AISL)的研究小組提出了一個新的框架,用于訓(xùn)練移動機器人快速導(dǎo)航,同時保持低碰撞率。該框架在訓(xùn)練過程中結(jié)合了深度強化學(xué)習(xí)(DRL)和課程學(xué)習(xí),讓機器人學(xué)會快速又安全的導(dǎo)航策略。

論文第一作者、博士生Chandra Kusuma Dewa解釋說,DRL可以使機器人通過反復(fù)嘗試各種動作,根據(jù)環(huán)境的當前狀態(tài)(如機器人位置和障礙物放置)學(xué)習(xí)適當?shù)膭幼?。此外,當前動作的?zhí)行會在機器人達到目標位置或與障礙物發(fā)生碰撞時立即停止,因為學(xué)習(xí)算法假設(shè)動作已經(jīng)被機器人成功執(zhí)行,該后果需要用于改進策略。所提出的框架可以幫助維持學(xué)習(xí)環(huán)境的一致性,使機器人可以學(xué)習(xí)到更好的導(dǎo)航策略。
此外,TUT的AISL負責(zé)人Jun Miura教授介紹說:“該框架遵循課程學(xué)習(xí)策略,在訓(xùn)練情節(jié)開始時為機器人設(shè)定一個小的速度值。隨著集數(shù)的增加,機器人的速度會逐漸增加,這樣機器人就可以在訓(xùn)練環(huán)境中從最簡單的關(guān)卡(如動作緩慢的關(guān)卡)到最困難的關(guān)卡(如動作快速的關(guān)卡),逐漸學(xué)會快速又安全的導(dǎo)航這一復(fù)雜任務(wù)。”
由于訓(xùn)練階段的碰撞是不可取的,所以學(xué)習(xí)算法的研究通常是在模擬環(huán)境中進行的。研究人員模擬了室內(nèi)環(huán)境進行實驗。實踐證明,所提出的框架在訓(xùn)練和驗證過程中,與之前已有的其他框架相比,都能使機器人的導(dǎo)航速度更快,成功率最高。研究人員認為,根據(jù)評估結(jié)果,該框架是有價值的,它可以廣泛應(yīng)用于任何需要快速但安全導(dǎo)航的領(lǐng)域的移動機器人的訓(xùn)練。
論文標題為《A Framework for DRL Navigation With State Transition Checking and Velocity Increment Scheduling》,發(fā)表在《IEEE Access》上。