圖|人工智能部分應(yīng)用場景(來源:Pixabay)
然而,上述應(yīng)用更加傾向于執(zhí)行,離真正“智”的層面還有一定的距離,以及需要技術(shù)進(jìn)一步突破。就像辦工桌上放著一臺(tái)電腦和兩部手機(jī),機(jī)器人無法對這三個(gè)物體之間的位置關(guān)系進(jìn)行描述。
當(dāng)人類看到同樣的場景時(shí),則可以定性地講出他們之間的位置關(guān)系,比如在桌子的中間放著一臺(tái)電腦,其中一部手機(jī)在電腦的左邊,另一部在電腦的前邊。
人工智能機(jī)器人與人類看到的同樣的場景不同的表達(dá),本質(zhì)區(qū)別在于,無法理解兩個(gè)甚至多個(gè)物體之間存在的糾纏關(guān)系,這也是為什么很多深度學(xué)習(xí)的人工智能機(jī)器人“看不懂”物質(zhì)世界的原因。
如果對物質(zhì)與物質(zhì)之間的糾纏關(guān)系不了解,就無法真正做到智能,例如幫廚機(jī)器人很難執(zhí)行“將醬油放電磁爐的一邊,然后再將醋拿起來放到另一邊”之類的命令。
為了解決人工智能機(jī)器這一應(yīng)用難題,麻省理工學(xué)院(Massachusetts Institute of Technology,MIT)科學(xué)家研發(fā)了一個(gè)模型,可以幫助機(jī)器理解部分場景中物體與物體之間的潛在關(guān)系。
圖|物體場景關(guān)系理解(來源:麻省理工學(xué)院官網(wǎng))
該團(tuán)隊(duì)所研究的模型每次可以表達(dá)一個(gè)單獨(dú)的關(guān)系,然后將每次的表達(dá)結(jié)合起來對整個(gè)場景進(jìn)行描述,進(jìn)而使得這個(gè)模型可以從文字表述中生成更加精準(zhǔn)的圖像,相當(dāng)于在所描述場景中對不同關(guān)系的多個(gè)單一關(guān)系進(jìn)行排列組合。簡單來說,該團(tuán)對制備的新模型可以像人類一樣與周圍環(huán)境中的物體進(jìn)行互動(dòng)。
該研究在未來工業(yè)機(jī)器人領(lǐng)域具有非常廣泛的應(yīng)用前景,尤其是針對步驟多、操作復(fù)雜的任務(wù)。
譬如,大型制造業(yè)工場中存放的器件或者設(shè)備組裝。值得關(guān)注的是,該模型還可以使機(jī)器能夠像人類一樣,從各類場景中學(xué)習(xí)并且與周圍環(huán)境進(jìn)行有效互動(dòng)。
機(jī)器學(xué)習(xí)模型可雙向工作
麻省理工學(xué)院電子輸入控制系統(tǒng)計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室博士研究生杜依倫(音譯)表示:“通常,當(dāng)我見到一張桌子時(shí),不會(huì)說在 XYZ 坐標(biāo)系中有一個(gè)物體,這不是我們大腦正常的思維表達(dá)。事實(shí)上,我們是基于物體之間的關(guān)系去理解一個(gè)場景的。”
圖|杜依倫(音譯)(來源:麻省理工學(xué)院官網(wǎng))
杜依倫還表示,如果能開發(fā)一種理解物體和物體之間關(guān)系的系統(tǒng),人們就有可能利用發(fā)明的系統(tǒng)去改變和操縱周圍的環(huán)境。
該團(tuán)隊(duì)開發(fā)的系統(tǒng)可以通過物體,以及物體所關(guān)系的文本描述生成“桌子左邊放置藍(lán)色的凳子,右邊放置紅色沙發(fā)”的場景圖片。
然后,機(jī)器學(xué)習(xí)模型系統(tǒng)將這些文本劃分成兩個(gè)小的部分,對凳子和沙發(fā)這兩個(gè)單獨(dú)的物體關(guān)系進(jìn)行描述,再對這兩個(gè)部分進(jìn)行單獨(dú)建模,通過場景圖像的優(yōu)化將這兩個(gè)關(guān)系組合在一起。
機(jī)器學(xué)習(xí)模型將每段關(guān)系分割成更短的句子,以排列組合的形式對他們進(jìn)行重組,如此豐富的關(guān)系片段可以對之前沒有見過的場景進(jìn)行描述。
更有趣的是,該機(jī)器學(xué)習(xí)模型還能逆向工作,先生成一幅給定的圖像,再和場景中的物體關(guān)系相互匹配。
機(jī)器學(xué)習(xí)模型還可理解復(fù)雜場景關(guān)系
除了上述一對一關(guān)系理解,這種機(jī)器學(xué)習(xí)模型還可以理解復(fù)雜場景的關(guān)系,于是該團(tuán)隊(duì)將句子從 1 個(gè)增加到 4 個(gè)。實(shí)驗(yàn)結(jié)果表明,該模型仍然可以對生成的圖像準(zhǔn)確描述。
為了進(jìn)一步測試,研究人員還將他們的模型和其他類似的深度學(xué)習(xí)方式系統(tǒng)做了對比,在每次比賽中,該團(tuán)隊(duì)所發(fā)明的模型,在每個(gè)實(shí)例都比其他基線表現(xiàn)更佳。
圖|機(jī)器學(xué)習(xí)模型測試場景(來源:資料圖)
除此之外,該團(tuán)隊(duì)還驗(yàn)證了機(jī)器學(xué)習(xí)模型生成的圖像和初始場景的描述是否匹配,以最為復(fù)雜的場景關(guān)系為例,參加測試的人中有 91% 覺得新模型系統(tǒng)表現(xiàn)效果更佳。
該團(tuán)隊(duì)對開發(fā)的機(jī)器學(xué)習(xí)模型的穩(wěn)定性非常滿意,尤其是陌生場景的描述。該團(tuán)隊(duì)表示:“這是一項(xiàng)非常有前景的開發(fā),因?yàn)樗腿祟惖拇竽X場景描述邏輯類似。我們的模型可以從人類看到的數(shù)個(gè)場景中提煉有效信息,創(chuàng)造無數(shù)個(gè)不同的組合。”
該機(jī)器學(xué)習(xí)模型有一種可以從更少的數(shù)據(jù)中學(xué)習(xí)、總結(jié)的特性,可以生成更復(fù)雜的場景或圖像。
未來,該團(tuán)隊(duì)希望將他們的機(jī)器學(xué)習(xí)模型應(yīng)用于機(jī)器人系統(tǒng)中,讓機(jī)器人學(xué)會(huì)從場景中判斷物體之間的關(guān)系,進(jìn)而利用深度學(xué)習(xí)模型操縱地球上空間中的物體。