科技媒體 The Decoder (5 月 12 日)發(fā)布博文,報(bào)道稱 OpenAI 高級(jí)模型開發(fā)負(fù)責(zé)人 Jakub Pachocki 指出,AI 推理模型正展現(xiàn)出自主生成知識(shí)的潛力。
他認(rèn)為這種推理并非人類思維的翻版,而是基于數(shù)據(jù)和算法的獨(dú)特過程。IT之家援引博文介紹,Pachocki 解釋,AI 的學(xué)習(xí)分為兩個(gè)階段:首先是無監(jiān)督預(yù)訓(xùn)練,模型吸收海量數(shù)據(jù),構(gòu)建一個(gè)無意識(shí)、無時(shí)間線的“世界模型”(world model),以此理解現(xiàn)實(shí)的基本框架。
第二階段則是通過強(qiáng)化學(xué)習(xí)與人類反饋(RLHF)將基礎(chǔ)模型轉(zhuǎn)化為實(shí)用助手。Pachocki 強(qiáng)調(diào),這一階段在最新的推理模型中尤為關(guān)鍵。
OpenAI 同時(shí)結(jié)合傳統(tǒng)強(qiáng)化學(xué)習(xí),處理有明確對(duì)錯(cuò)的任務(wù),而 RLHF 則更適合復(fù)雜問題,盡管其擴(kuò)展性有限。他還質(zhì)疑預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)是否應(yīng)視為獨(dú)立階段,認(rèn)為推理模型的“思考”根植于預(yù)訓(xùn)練數(shù)據(jù),二者需深度融合。
近期一篇論文指出,推理訓(xùn)練并未為模型增添全新能力,而是幫助它們更高效地應(yīng)用已有知識(shí)。例如,模型能以更結(jié)構(gòu)化的方式解決已知問題。Pachocki 對(duì)此表示認(rèn)同,并補(bǔ)充,模型已展現(xiàn)出發(fā)現(xiàn)新見解的潛力,這為 AI 的未來應(yīng)用奠定了基礎(chǔ)。
對(duì)于通用人工智能(AGI),Pachocki 表示其觀點(diǎn)不斷演變。他回憶作為學(xué)生時(shí),他認(rèn)為 AI 掌握圍棋是遙不可及的目標(biāo),但 2016 年 AlphaGo 的勝利徹底改變了他的認(rèn)知。
如今,他將 AI 的經(jīng)濟(jì)價(jià)值視為下一個(gè)里程碑,強(qiáng)調(diào) AI 需實(shí)現(xiàn)商業(yè)成果并開展自主研究。他預(yù)測(cè),到本世紀(jì)末,AI 自主研究將取得“實(shí)質(zhì)性進(jìn)展”,甚至今年內(nèi)可能出現(xiàn)近乎自主的軟件開發(fā)系統(tǒng)。