国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機(jī)器人  機(jī)器人  ABB  機(jī)器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫卡  碼垛機(jī)器人  機(jī)械手 

最強(qiáng)AlphaGo怎樣煉成?剛剛,DeepMind團(tuán)隊(duì)進(jìn)行了全面解讀

   日期:2017-10-20     來源:量子位    作者:dc136     評論:0    
   昨天AlphaGo再次震驚所有人。
 
  剛剛,這個(gè)史上最強(qiáng)圍棋AI的兩位主要開發(fā)者,David Silver和Julian Schrittwieser,做客知名網(wǎng)站reddit,展開一場超級問答AMA(Ask Me Anything)。
 
  他們是誰?
最強(qiáng)AlphaGo怎樣煉成?剛剛,DeepMind團(tuán)隊(duì)進(jìn)行了全面解讀
  △ 左:Julian Schrittwieser 右:David Silver
 
  比較關(guān)注AlphaGo的朋友對其中一位應(yīng)該不會陌生,David Silver是AlphaGo團(tuán)隊(duì)負(fù)責(zé)人,也是上一代AlphaGo的主要作者。從首爾到烏鎮(zhèn),都有他的身影。關(guān)于David Silver我們在之前報(bào)道黃士杰的文章里也有提及。
 
  名字更長的Julian Schrittwieser,是這次新一代AlphaGo的三位并列主要作者之一,而且非常年輕。2013年,Schrittwieser本科畢業(yè)于奧地利的維也納技術(shù)大學(xué);同年9月,Schrittwieser加入DeepMind。
 
  此前DeepMind關(guān)于AlphaGo和星際2的研究論文中,Schrittwieser也都有參與。
 
  OK,背景交代到這里。
 
  干貨時(shí)間開始。
 
 
  最強(qiáng)AlphaGo是怎么煉成的
 
  提問:深度強(qiáng)化學(xué)習(xí)本來就是出了名的不穩(wěn)、容易遺忘,請問你們是如何讓Zero的訓(xùn)練如此穩(wěn)定的?
 
  下圖顯示了在自我對弈強(qiáng)化學(xué)習(xí)期間,AlphaGo Zero的表現(xiàn)。整個(gè)訓(xùn)練過程中,沒有出現(xiàn)震蕩或者災(zāi)難性遺忘的困擾。
最強(qiáng)AlphaGo怎樣煉成?剛剛,DeepMind團(tuán)隊(duì)進(jìn)行了全面解讀
  △ 引自AlphaGo Zero論文
 
  David Silver:AlphaGo Zero所用的算法,與策略梯度、Q-learning之類的傳統(tǒng)(無模型)算法完全不同。通過使用AlphaGo搜索,我們大大改進(jìn)了策略和自我對弈結(jié)果,然后用簡單的基于梯度的更新來訓(xùn)練下一個(gè)策略和價(jià)值網(wǎng)絡(luò)。
 
  這似乎比漸進(jìn)的、基于梯度的策略改進(jìn)要穩(wěn)定得多,梯度策略可能會忘記之前的優(yōu)化。
 
  提問:為什么這次AlphaGo Zero就訓(xùn)練了40天?訓(xùn)練3個(gè)月會怎么樣?
 
  David Silver:我想這是一個(gè)人力和資源優(yōu)先級的問題。如果我們訓(xùn)練了3個(gè)月,我想你還會好奇訓(xùn)練6個(gè)月會發(fā)生什么 :)
 
  提問:看完論文我有個(gè)疑問,輸入維度那么高好像完全沒必要,AlphaGo的residual block輸入維度為什么是19×19×17?我不太理解為什么每個(gè)玩家要用8個(gè)二值特征plane。
 
  David Silver:實(shí)際上,不是只有8 planes這一種選擇,用其他形式的表示可能也沒問題,但我們用了觀察值的堆疊歷史,有三個(gè)原因:
 
  這和其他領(lǐng)域,比如說玩雅達(dá)利游戲時(shí)的常見輸入表示一致;
 
  我們需要一些歷史記錄來呈現(xiàn)ko;
 
  歷史可以用來記錄對手最近在哪落過子,這些信息可以當(dāng)作一種注意力機(jī)制來用,比如說集中在對手認(rèn)為重要的位置上,第17個(gè)plane記錄的是我自己在用什么顏色,因?yàn)橛匈N目規(guī)則,這個(gè)信息也很重要。
 
  提問:你們發(fā)了AlphaGo論文之后,網(wǎng)友們說里邊的算法實(shí)現(xiàn)起來不難,但很難達(dá)到你們那個(gè)訓(xùn)練量;在計(jì)算機(jī)下象棋的圈子里,開發(fā)者們也沒少復(fù)制其他程序的算法。你認(rèn)為算法和數(shù)據(jù)哪個(gè)更重要?
 
  Julian Schrittwieser:我認(rèn)為還是算法更重要,比較一下新AlphaGo Zero和之前論文中的版本,新版效率有多高就知道了。另外,我認(rèn)為我們在數(shù)據(jù)效率方面還能有更多提升。
 
  提問:據(jù)說和柯潔對戰(zhàn)的AlphaGo,計(jì)算力的消耗只有對戰(zhàn)李世乭版本的十分之一。這中間做了怎樣的優(yōu)化,能簡單說是AlphaGo的算法比之前提高了10倍嗎?
 
 ?。孔游蛔ⅲ汉涂聺崒?zhàn)的AlphaGo Master,用了和Zero版一樣的算法和架構(gòu),不同之處在于引入了人類對局?jǐn)?shù)據(jù)和特征。)
 
  Julian Schrittwieser:主要是因?yàn)楦倪M(jìn)了價(jià)值/策略網(wǎng)絡(luò),訓(xùn)練和架構(gòu)都變得更好了,不同的網(wǎng)絡(luò)架構(gòu)之間有所對比。
 
  提問:你們?yōu)槭裁匆婚_始選擇用人類對局?jǐn)?shù)據(jù)來訓(xùn)練AlphaGo,而不是通過自我對弈來從0開始?還是當(dāng)時(shí)也嘗試了但效果不好呢?為什么會這樣?我想知道,兩年前設(shè)計(jì)一個(gè)完全自學(xué)的AlphaGo瓶頸在哪?
 
  David Silver:創(chuàng)造一個(gè)完全自學(xué)成才的系統(tǒng),一直是強(qiáng)化學(xué)習(xí)中的一個(gè)開放式問題。我們一開始嘗試的方法,以及在文獻(xiàn)綜述部分提到的很多其他方法,都非常不穩(wěn)定。我們做了很多實(shí)驗(yàn),最終發(fā)現(xiàn),AlphaGo Zero的算法是最有效率的,好像攻克了這個(gè)特定的問題。
 
  提問:為什么在剛開始訓(xùn)練的時(shí)候也要每局下1600步?這時(shí)候應(yīng)該都是隨機(jī)的噪聲吧……先快速下很多盤隨機(jī)局,然后在網(wǎng)絡(luò)訓(xùn)練得更好的時(shí)候,再進(jìn)行更深的搜索不是更好嗎?
 
  Julian Schrittwieser:一開始少下幾步可能也行,但在整個(gè)試驗(yàn)中保持統(tǒng)一是一種比較簡明的做法。
 
  提問:在輸入特征上,用delta featurization可行嗎?
 
  Julian Schrittwieser:神經(jīng)網(wǎng)絡(luò)實(shí)在是很擅長用不同方式來表示同樣的信息,所以,是的,我認(rèn)為用delta featurization應(yīng)該也行。
 
  提問:你們有沒有想過用生成對抗網(wǎng)絡(luò)(GAN)?
 
  David Silver:在某種意義上,AlphaGo的自我對弈訓(xùn)練已經(jīng)有了對抗:每次迭代都試圖找到上一代版本的“反策略”。
最強(qiáng)AlphaGo怎樣煉成?剛剛,DeepMind團(tuán)隊(duì)進(jìn)行了全面解讀
  △ 左:Julian Schrittwieser 右:David Silver
 
  為何成功者不是Facebook
 
  提問:我聽說在AlphaGo開發(fā)初期,你們在訓(xùn)練中人為向特定方向引導(dǎo),來解決它在棋局中表現(xiàn)出來的弱點(diǎn)。現(xiàn)在它的能力已經(jīng)超越人類認(rèn)知了,會不會還需要人工調(diào)整,避免它落入局部最大化?你們有這個(gè)打算嗎?
 
  David Silver:實(shí)際上,我們從來沒有為特定的弱點(diǎn)而人為引導(dǎo)過AlphaGo,而是一直專注于原則化的機(jī)器學(xué)習(xí)算法,讓算法自己學(xué)會糾正自己的錯(cuò)誤。
 
  想找到圍棋的最優(yōu)解當(dāng)然是不現(xiàn)實(shí)的,所以,弱點(diǎn)總是存在。在實(shí)踐中,用正確的探索方法來保證訓(xùn)練沒有卡在局部最優(yōu)解中非常重要,但我們沒有用上人為的引導(dǎo)。
 
  提問:AlphaGo的研究中,最困難的是什么?
 
  David Silver:我們遇到的第一個(gè)大挑戰(zhàn),是在跟李世乭比賽的時(shí)候。當(dāng)時(shí)我們意識到,AlphaGo偶爾會產(chǎn)生“妄想”,也就是會系統(tǒng)地誤判盤面情況,并且持續(xù)數(shù)手。我們嘗試了很多想法來解決這個(gè)弱點(diǎn)。而引入更多圍棋知識,或者人類元知識一直是種誘惑。
 
  但最終我們?nèi)〉昧司薮蟮某晒Γ瑥氐捉鉀Q了AlphaGo的問題。我們用的方法是,更多的依賴強(qiáng)化學(xué)習(xí)的力量,讓它自己找到更好的解決方案。
 
  提問:AlphaGo在行棋時(shí)間安排上是怎么考慮的?
 
  David Silver:我們實(shí)際上用了一個(gè)相當(dāng)直接的時(shí)間控制策略,基于自我博弈中勝率的簡單優(yōu)化。當(dāng)然可以應(yīng)用更復(fù)雜的策略,性能也應(yīng)該可以再提升一點(diǎn)點(diǎn)。
 
  提問:NIPS論文Thinking Fast and Slow with Deep Learning and Tree Search也提出了和AlphaGo Zero類似的方法。
 
  David Silver:這的確和AlphaGo的策略算法很相似,不過我們還有個(gè)價(jià)值模塊。以及要澄清一下,在AlphaGo Zero論文4月7日提交給Nature的時(shí)候,那篇NIPS論文還沒公開。
 
  提問:DeepMind和Facebook研究這個(gè)問題大概是在同一時(shí)間誒,是什么讓AlphaGo這么拿到了圍棋最高段位?
 
  David Silver:Facebook更專注于監(jiān)督學(xué)習(xí),這是當(dāng)時(shí)最厲害的項(xiàng)目之一。我們選擇更多地關(guān)注強(qiáng)化學(xué)習(xí),是因?yàn)橄嘈潘罱K會超越人類的知識。最近的研究結(jié)果顯示,只用監(jiān)督學(xué)習(xí)的方法的表現(xiàn)力驚人,但強(qiáng)化學(xué)習(xí)絕對是超出人類水平的關(guān)鍵。
 
  AlphaGo不開源,星際2還早
 
  提問:你們有開源AlphaGo的計(jì)劃嗎?
 
  David Silver:我們過去開源了不少代碼,但是開源這個(gè)過程總是很復(fù)雜。在AlphaGo這個(gè)問題上,非常不好意思,它的代碼庫實(shí)在是過于復(fù)雜了。
 
  提問:烏鎮(zhèn)時(shí)說過的圍棋工具什么時(shí)候發(fā)布?
 
  David Silver:這項(xiàng)工作一直在推進(jìn),敬請期待 :)
 
  提問:AlphaGo Zero還在訓(xùn)練么?未來還會有突破么?
 
  David Silver:AlphaGo已經(jīng)退役了!我們的人力和硬件資源,已經(jīng)動(dòng)身前往其他道阻且長的AI項(xiàng)目上了。
 
  提問:AlphaGo Zero是最終版本的AlphaGo么?
 
  David Silver:我們已經(jīng)不再主動(dòng)研究如何讓AlphaGo變得更強(qiáng),但它仍然是所有DeepMind同仁的研究測試平臺,用于嘗試新的想法和算法。
 
  提問:與圍棋相比,《星際2》有多難?AI打星際什時(shí)候能有新進(jìn)展?
 
  David Silver:前不久我們剛發(fā)布了《星際2》的環(huán)境,現(xiàn)在相關(guān)研究還在相當(dāng)早期的階段。《星際2》的行為空間顯然比圍棋大得多,需要監(jiān)控的數(shù)據(jù)量也更大。從技術(shù)上來講,圍棋是一個(gè)完美信息博弈,而戰(zhàn)爭迷霧讓星際變成不完美信息博弈。
 
  關(guān)于AI研究
 
  提問:AlphaGo在神經(jīng)網(wǎng)絡(luò)的可解釋性方面有什么進(jìn)展?
 
  David Silver:可解釋性對我們所有的系統(tǒng)來說都是有趣的問題,而不僅僅是AlphaGo。DeepMind內(nèi)部正努力研究詢問系統(tǒng)的新方式。最近,他們的研究已經(jīng)發(fā)表出來,主要是從認(rèn)知心理學(xué)出發(fā),來嘗試破譯神經(jīng)網(wǎng)絡(luò)內(nèi)部的情況。這項(xiàng)研究非常棒。
 
  提問:似乎使用或模擬強(qiáng)化學(xué)習(xí)智能體的長期記憶是一個(gè)很大瓶頸。展望未來,你是否相信我們即將以一種新的思維方式“解決”這個(gè)問題?
 
  Julian Schrittwieser:你說的沒錯(cuò),長期記憶確實(shí)是個(gè)重要因素。例如,在星際爭霸的一場比賽中可能有上萬個(gè)動(dòng)作,另外還得記住你偵察到的東西。
 
  我認(rèn)為目前已經(jīng)有了很一顆賽艇的組件,比如神經(jīng)圖靈機(jī),但在這個(gè)領(lǐng)域,我們還將看到一些更令人印象深刻的進(jìn)步。
 
  提問:有沒有強(qiáng)化學(xué)習(xí)(RL)用在金融領(lǐng)域的案例?
 
  David Silver:很難在公開發(fā)表的論文中找到真實(shí)世界的金融算法!但是有一些經(jīng)典論文非常值得一讀,例如Nevmyvaka和Kearns在2006年發(fā)布的研究、Moody和Safell在2001發(fā)布的研究。
 
  提問:不讀研也能在人工智能領(lǐng)域大有作為嗎?
 
  Julian Schrittwieser:當(dāng)然可以,我也只有計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。這個(gè)領(lǐng)域發(fā)展很快,所以我認(rèn)為你可以從閱讀論文和運(yùn)行實(shí)驗(yàn)中學(xué)習(xí)很多東西。在已經(jīng)有過機(jī)器學(xué)習(xí)經(jīng)驗(yàn)的公司實(shí)習(xí)是對你的成長應(yīng)該很有幫助。
 
  提問:怎樣進(jìn)入AI行業(yè)?我覺得“讀個(gè)PhD然后找工作”好像是個(gè)挺明顯的途徑,但是最常見的路徑不見得就是最好的吧……
 
  Julian Schrittwieser:還有一種方法效果也不錯(cuò):挑一個(gè)有意思的問題,訓(xùn)練很多神經(jīng)網(wǎng)絡(luò),探索它們的結(jié)構(gòu),然后你會發(fā)現(xiàn)一些效果很好的部分,去發(fā)表一篇論文,或者去參加會議展示你的成果。
 
  不斷地重復(fù)這個(gè)過程。
 
  這個(gè)圈子很好,會愿意給你反饋,你也可以通過arXiv了解最近的研究。
最強(qiáng)AlphaGo怎樣煉成?剛剛,DeepMind團(tuán)隊(duì)進(jìn)行了全面解讀
  關(guān)于圍棋
 
  提問:現(xiàn)在國際象棋程序能給選手評分:通過棋步的分析,來推算Elo等級分。AlphaGo能在圍棋上搞這個(gè)嗎?
 
  相關(guān)論文:https://www.cse.buffalo.edu/~regan/papers/pdf/ReHa11c.pdf
 
  Julian Schrittwieser:這個(gè)想法很酷啊,感謝分享這篇論文!
 
  我認(rèn)為在圍棋上也能做這樣的事情,可能會通過計(jì)算最佳下法和實(shí)際下法之間的價(jià)值差異來實(shí)現(xiàn),或者計(jì)算策略網(wǎng)絡(luò)下出實(shí)際下法的概率。等我有時(shí)間試試這個(gè)。
 
  提問:關(guān)于對局中的第一手棋,我想問,AlphaGo會有一些你從未見過的開局嗎,比如10-10或5-3,或者走很奇怪的一步?如果沒有這種情況,那是出于“習(xí)慣”,還是有強(qiáng)烈的信念,3-3、3-4和4-4是優(yōu)越的?
 
  David Silver:在訓(xùn)練中,我們看到AlphaGo探索了各種不同的動(dòng)作——甚至在訓(xùn)練開始時(shí)下出過1-1!即使在經(jīng)過一段訓(xùn)練后,Zero也嘗試過下6-4,但很快又回到了熟悉的3-4。
 
  Julian Schrittwieser:實(shí)際上,在剛開始訓(xùn)練AlphaGo Zero時(shí),它完全是隨機(jī)的,例如在圖5的b部分中,你可以看到它實(shí)際上是在1-1點(diǎn)下出第一手!逐漸適應(yīng)網(wǎng)絡(luò)后,隨著它變得更強(qiáng)大,它開始青睞4-4、3-4和3-3。
 
  提問:現(xiàn)在AlphaGo能讓頂級圍棋選手幾子?能讓柯潔兩子么?
 
  David Silver:我們還沒跟人類選手下過讓子棋,我們想專注在整場的圍棋比賽中。然而,在讓子條件下測試不同版本的AlphaGo很有用。在Zero的論文中我們提到了各個(gè)版本的棋力:AlphaGo Master > AlphaGo Lee > AlphaGo Fan,每個(gè)版本都讓三子擊敗了它的前一代。
 
  值得注意的是,因?yàn)檫@些神經(jīng)網(wǎng)絡(luò)沒有專門為讓子棋訓(xùn)練過。此外,由于AlphaGo是自我對弈訓(xùn)練的,特別擅長打敗自身較弱的版本。因此,我認(rèn)為我們不能以任何有意義的方式將這些結(jié)果推廣到人類的讓子棋中。
 
  提問:AlphaGo Zero會處理征子之類的問題嗎?你們是怎樣解決這類問題的?
 
  David Silver:AlphaGo Zero并沒有特殊的特征來處理征子,或者任何其他圍棋中的特定問題。在訓(xùn)練早期,Zero偶爾會因?yàn)檎髯酉聺M棋盤,就算它對全局有很復(fù)雜的理解也沒用。但在我們分析的棋局中,經(jīng)過完全訓(xùn)練的Zero能正確識別所有無意義的征子。
 
  提問:已經(jīng)發(fā)布的少量AlphaGo自我對弈棋局中,白棋勝率太高。是不是貼目應(yīng)該降低?
 
  Julian Schrittwieser:從我的經(jīng)驗(yàn)和實(shí)驗(yàn)來看,貼7.5目非常平衡。我們只觀察到白棋的勝率略高一點(diǎn)(55%)。
 
  提問:你們認(rèn)為AlphaGo能解《發(fā)陽論》第120題嗎?(傳說中的“死活題最高杰作”)
 
  David Silver:我們剛才去問了樊麾,他說AlphaGo能解這個(gè)問題,但更有意思的是,它會不會找到跟書里一樣的答案?還是能給出一個(gè)之前誰也沒想到的解法?在AlphaGo的很多對局中,我們都看到了以人類經(jīng)驗(yàn)無法想象的下法。
 
  提問:邁克·雷蒙(Michael Redmond,首位非東亞裔圍棋九段)認(rèn)為AlphaGo會下出人類棋手不會有的惡手,而且學(xué)不會圍棋定式(深度程序知識)。
 
  David Silver:我相信AlphaGo的“惡手”只有在影響全局勝利時(shí)才是問題。如果結(jié)局仍然是穩(wěn)贏,真的是很差的一招么?
 
  AlphaGo已經(jīng)學(xué)會很多人類的定式,也下出了自己的定式?,F(xiàn)在職業(yè)棋手有時(shí)就在使用AlphaGo的定式 :)
 
  提問:1846年,桑原秀策四段對弈幻庵因碩八段,其中著名的是第127手。AlphaGo怎么看這手棋?AlphaGo會怎么下?
 
  Julian Schrittwieser:我不是圍棋專家,但是我們問了樊麾,他說:
 
  當(dāng)年比賽的時(shí)候,還沒有貼目這一說?,F(xiàn)在,AlphaGo采用的都是貼7.5目的規(guī)則。貼目讓對弈過程完全改變。至于第127手,AlphaGo很有可能會選擇不同的下法。
 
  提問:還會再和職業(yè)棋手下棋嗎?
 
  Julian Schrittwieser:我們五月份說過,烏鎮(zhèn)那場就是AlphaGo的最后一次比賽了。
 
 
更多>相關(guān)資訊
0相關(guān)評論

推薦圖文
推薦資訊
點(diǎn)擊排行