熱搜： 佳士科技 irobot 工業(yè)機器人機器人 ABB 機器人產業(yè)聯(lián)盟發(fā)那科庫卡碼垛機器人機械手

MIT開發(fā)的機器人可以在多人角色游戲中擊敗人類

日期：2019-11-22 來源：數(shù)碼新鮮匯作者：阿芬評論：0

　　麻省理工學院(MIT）的研究人員開發(fā)了一種配備了人工智能的機器人，該機器人可以在棘手的在線多人游戲中擊敗人類玩家，而其中的玩家角色和動機卻被保密。

　　已經建立了許多游戲機器人來跟上人類玩家的步伐。今年早些時候，卡內基梅隆大學的一個團隊開發(fā)了世界上第一個可以擊敗多人撲克專業(yè)人士的機器人。DeepMind的AlphaGo在2016年成為頭條新聞，以擊敗專業(yè)的Go玩家。還建立了一些機器人來擊敗專業(yè)的國際象棋玩家或聯(lián)合起來合作合作游戲，例如在線奪旗。但是，在這些游戲中，機器人從一開始就了解其對手和隊友。

　　在下個月的神經信息處理系統(tǒng)大會上，研究人員將展示DeepRole，這是第一個可以贏得在線多人游戲的游戲機器人，參與者最初對團隊的忠誠度尚不清楚。該機器人的設計是將新穎的“演繹推理”添加到通常用于玩撲克的AI算法中。這有助于其推理出部分可觀察的動作，從而確定給定玩家是隊友或對手的可能性。通過這樣做，它可以快速了解與誰結盟以及采取哪些行動來確保其團隊的勝利。

　　研究人員在超過4,000輪在線游戲“抵抗：阿瓦隆”中將DeepRole與人類玩家進行比較。在該游戲中，玩家嘗試隨著游戲的進行推斷出同齡人的秘密角色，同時隱藏自己的角色。作為隊友和對手，DeepRole始終優(yōu)于人類選手。

　　“如果用機器人代替人類的隊友，則可以期望團隊獲得更高的獲勝率。機器人是更好的合作伙伴。”第一作者杰克·塞里諾（Jack Serrino '18）說，他是麻省理工學院電氣工程和計算機科學專業(yè)的學生，是狂熱的在線“阿瓦隆”玩家。

　　這項工作是一個更廣泛的項目的一部分，該項目旨在更好地模擬人類如何做出具有社會根據(jù)的決定。這樣做可以幫助構建更好地理解，學習人類并與人類合作的機器人。

　　“人類向他人學習并與他人合作，這使我們能夠共同實現(xiàn)我們一個人無法獨自完成的事情，”合著者馬克斯·克萊曼·韋納（Max Kleiman-Weiner）說，他是大腦，思維與機器中心和美國國防部的博士后。麻省理工學院和哈佛大學的腦與認知科學。“像“阿瓦隆”這樣的游戲可以更好地模仿人類在日常生活中所經歷的動態(tài)社交環(huán)境。無論是在幼兒園的第一天還是在辦公室的第二天，您都必須弄清楚誰在團隊中并會與您一起工作。”

　　哈佛大學的David C.Parkes和計算機認知科學教授，麻省理工學院計算機科學與人工智能實驗室以及腦，思維和機器中心的成員Joshua B.Tenenbaum和Serrino和Kleiman-Weiner一起加入了本文。

　　演繹機器人

　　在“阿瓦隆”中，隨機將三名球員秘密分配給“抵抗”隊，將兩名球員隨機分配給“間諜”隊。兩名間諜玩家都知道所有玩家的角色。在每個回合中，一個玩家提議一個由兩個或三個玩家組成的子集來執(zhí)行任務。所有參與者同時并公開投票批準或拒絕該子集。如果獲得多數(shù)同意，則子集會秘密確定任務是成功還是失敗。如果選擇兩個“成功”，則任務成功。如果選擇一個“失敗”，則任務失敗。反抗玩家必須始終選擇成功，但間諜玩家可以選擇任一個結果。抵抗隊在成功完成三個任務后獲勝；在執(zhí)行了三個失敗的任務后，間諜團隊獲勝。

　　贏得游戲基本上歸結為推論誰是反抗或間諜，然后投票給您的合作者。但這實際上比下棋和撲克更加復雜。Kleiman-Weiner說：“這是一個信息不完善的游戲。” “您甚至不確定一開始就反對誰，因此還有一個發(fā)現(xiàn)階段，尋找與誰合作。”

　　DeepRole使用一種稱為“反事實后悔最小化”（CFR）的游戲計劃算法-通過反復與自己對戰(zhàn)來學習游戲-并增加了演繹推理。在游戲的每個點上，CFR都會前瞻性地創(chuàng)建由線和節(jié)點組成的決策“游戲樹”，以描述每個玩家的潛在未來動作。游戲樹代表每個玩家在每個未來決策點可以采取的所有可能的動作（線）。在進行可能數(shù)十億次的游戲模擬時，CFR指出哪些動作增加或減少了獲勝的機會，并反復修改其策略以包括更多好的決策。最終，它計劃了一種最佳策略，在最壞的情況下，它會與任何對手聯(lián)系在一起。

　　CFR非常適合像撲克之類的游戲，可以通過公共行動（例如下注錢和棄牌）來進行，但是當行動為秘密時，CFR會遇到困難。研究人員的CFR結合了公共行為和私人行為的后果，以確定參與者是抵抗還是間諜。

　　該機器人是通過對抗自己作為抵抗力和間諜來進行訓練的。在玩在線游戲時，它使用其游戲樹來估計每個玩家將要做什么。游戲樹代表一種策略，該策略賦予每個玩家獲勝的最大可能性，以此作為指定角色。該樹的節(jié)點包含“反事實值”，基本上是對玩家在執(zhí)行給定策略時獲得的回報的估計。

　　在執(zhí)行每個任務時，機器人會查看每個人與游戲樹相比的玩法。如果在整個游戲過程中，玩家做出的決策與機器人的期望不一致，那么該玩家可能會扮演另一個角色。最終，機器人為每個玩家的角色分配了很高的概率。這些概率用于更新機器人的策略，以增加其獲勝的機會。

　　同時，它使用相同的技術來估計第三人稱觀察者如何解釋自己的行為。這有助于估計其他參與者的反應，從而做出更明智的決策。“如果執(zhí)行的兩人任務失敗，那么其他玩家就會知道一個玩家是間諜。該機器人可能不會在未來的任務中提議同一個團隊，因為它知道其他玩家認為這很糟糕。”塞里諾說。

　　語言：下一個領域

　　有趣的是，該機器人不需要與其他玩家交流，這通常是游戲的關鍵組成部分。“ Avalon”使玩家可以在游戲過程中在文本模塊上聊天。Kleiman-Weiner說：“但是事實證明，我們的機器人能夠與其他人一起很好地工作，同時僅觀察玩家的行為。” “這很有趣，因為人們可能會認為這樣的游戲需要復雜的溝通策略。”

　　接下來，研究人員可以使機器人在游戲過程中使用簡單的文字進行交流，例如說出玩家的好壞。那將涉及給文本分配一個相關的概率，即玩家是抵抗者還是間諜，機器人已經使用它來做出決定。除此之外，未來的機器人可能會配備更復雜的通訊功能，使其能夠玩重語言的社交演繹游戲，例如流行的游戲“狼人”，其中涉及數(shù)分鐘的爭論并說服其他玩家了解誰在好的和壞的團隊。

　　“語言絕對是下一個領域，” Serrino說。“但是在那些溝通至關重要的游戲中，攻擊存在許多挑戰(zhàn)。”

更多>相關資訊

0 條相關評論

推薦圖文

機器人賦能產業(yè)，智贏	機器人也會創(chuàng)造英國
2018年中國智慧機場行	智能工廠全面解讀！
艾貓早教機器人亮相20	360智能硬件助力美國

推薦資訊

點擊排行

• MIT Digger Finger機器人：可以感知埋在地下的	• 無用機器人之：MIT發(fā)明會耍雜技的機器人
• MIT開發(fā)能“感知”隱藏物體的機器人：“我們正	• 麻省理工學院快速開發(fā)系統(tǒng)數(shù)小時內制造出機器人
• MIT機器人利用穿透無線電頻率感知隱藏的物體	• MIT開發(fā)可實現(xiàn)精準操控線纜的機器手
• MIT的自主機器人利用UVC光殺死表面的新冠病毒顆	• 遠程操作！MIT研發(fā)自帶UVC光的機器人
• MIT評論關注人工智能抗擊疫情	• 機器學習的進化！MIT公布最新黑科技，機器人能

恰佩克獎	機器人高峰論壇	北大機器人	金屬加工在線	AI中國網(wǎng)	埃森焊接展	機氣林
工博會	趕考網(wǎng)	中國機床網(wǎng)	ITES深圳工業(yè)展	電氣自動化網(wǎng)	高壓電氣網(wǎng)	人工智能機器人
亞洲工業(yè)網(wǎng)	二手設備網(wǎng)	展覽會信息網(wǎng)	重慶房交匯網(wǎng)	VLAI未來四足機器人官網(wǎng)	中國傳動網(wǎng)	華北機床網(wǎng)
數(shù)控機床市場網(wǎng)	國家標準化委員會

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

MIT開發(fā)的機器人可以在多人角色游戲中擊敗人類