如果有人讓你畫一只小鳥,你大概得先線條起稿、補(bǔ)充細(xì)節(jié),然后著色,整個(gè)過(guò)程也得個(gè)把小時(shí)。微軟最近發(fā)布了一項(xiàng)新的人工智能項(xiàng)目,名為繪畫機(jī)器人(drawing bot),可以將文字轉(zhuǎn)換成圖畫(text-to-image)。
1
對(duì)抗生成網(wǎng)絡(luò)
何曉東是微軟深度學(xué)習(xí)技術(shù)中心的負(fù)責(zé)人,也是 text-to-image 項(xiàng)目的核心人員之一。他說(shuō),跟網(wǎng)絡(luò)搜索得到的圖片不同,繪畫機(jī)器人給你的圖案都是按照一定的指令一點(diǎn)一點(diǎn)畫出來(lái)的,也有可能它畫出來(lái)的東西這個(gè)世界上并不存在。
繪畫機(jī)器人的核心技術(shù)是對(duì)抗生成網(wǎng)絡(luò)(Generative Adversarial Network,即 GAN),聽這個(gè)是不是感覺(jué)很難懂想溜,別急,微軟亞洲研究院在知乎專欄里舉了個(gè)很好的例子。
女生拉男票給自己拍照,拍完第一張,女生說(shuō):你要學(xué)一下誰(shuí)誰(shuí)誰(shuí)的構(gòu)圖;
拍完第二張,女生又說(shuō),你要學(xué)一下誰(shuí)誰(shuí)誰(shuí)的調(diào)色;
拍完第三張,女生再說(shuō),你要學(xué)一下誰(shuí)誰(shuí)誰(shuí)的感覺(jué);
……反復(fù)幾次,女生才終于認(rèn)可了男票拍出來(lái)的照片。
這個(gè)男友拍照血淚史就是生成對(duì)抗網(wǎng)絡(luò)。生成對(duì)抗網(wǎng)絡(luò)它有兩個(gè)工作模型,一個(gè)負(fù)責(zé)根據(jù)文字生成圖片(generator),另一個(gè)根據(jù)文字評(píng)判生成的圖片(discriminator),這兩個(gè)模型不斷相互博弈、又相互學(xué)習(xí),直到 discriminator 再也沒(méi)有能力判斷這個(gè)圖形,「生成模型」就可以出師了。
2
研究歷程
這個(gè)項(xiàng)目并不是最近新出的,何曉東與他的團(tuán)隊(duì)已經(jīng)研究了 5 年了。
他們最早推出過(guò)一個(gè) Captionbot,只要你上傳一張圖,這個(gè)人工智能就會(huì)自動(dòng)為圖片配一段文字;接著,他們又將這個(gè)技術(shù)進(jìn)一步發(fā)展,你可以根據(jù)圖片上的事物進(jìn)行提問(wèn),人工智能會(huì)回答你提出的問(wèn)題。這個(gè)時(shí)期的技術(shù),有點(diǎn)像小學(xué)生的看圖作文、看圖回答問(wèn)題。
早在 2017 年 1 月份,在 arXiv.org 上就何曉東團(tuán)隊(duì)登載了一篇介紹 text-to-image 的論文,這項(xiàng)技術(shù)名為生成對(duì)抗網(wǎng)絡(luò)(Attentional ,簡(jiǎn)稱 AttnGAN)。而最近微軟正在進(jìn)行的 text-to-image 項(xiàng)目,生成的圖畫質(zhì)量將是以前的 3 倍。
與根據(jù)圖片進(jìn)行文字描述技術(shù)相比,text-to-image 的難點(diǎn)在于,繪畫機(jī)器人要描繪出更多細(xì)節(jié),而這些細(xì)節(jié)是文字?jǐn)⑹鲋兴鶝](méi)有的,這就要求你的人工智能自動(dòng)「腦補(bǔ)」。
研究繪畫機(jī)器人有極大的科研意義,這是計(jì)算機(jī)視覺(jué)研究(computer vision)和自然語(yǔ)言處理(natural language)這兩個(gè)研究領(lǐng)域的一次融合。怎么理解呢?計(jì)算機(jī)視覺(jué)研究的是機(jī)器如何去看,也就是說(shuō)讓機(jī)器像人眼一樣去看待這個(gè)世界、并且進(jìn)行圖像處理;而自然語(yǔ)言處理,研究的就是人與人工智能之間如何用我們?nèi)粘5恼Z(yǔ)言進(jìn)行交流。
3
繪畫機(jī)器人的實(shí)際應(yīng)用
繪畫機(jī)器人雖然目前仍處在研究階段,但是界內(nèi)預(yù)測(cè),它一旦出現(xiàn),將會(huì)有極大的實(shí)際用途。
比如,它可以作為畫家或者設(shè)計(jì)師的助理,甚至可以幫他們完成草圖。
根據(jù)何曉東的想象,繪畫機(jī)器人還可以幫助電影工作者,可以根據(jù)電影劇本直接生成影片,這可以節(jié)省大量的人力。電影從業(yè)人員莫哭。
人類為謀生奮斗了這么多年,沒(méi)想到最大的競(jìng)爭(zhēng)對(duì)手卻是機(jī)器人。而何曉東表示,人類和人工智能共同生活在這個(gè)地球上,雙方是需要找到一種溝通的方式的,而最好的溝通方式就是語(yǔ)言和圖像。這話好像很順耳,但是你有沒(méi)有覺(jué)得有細(xì)思極恐的感覺(jué)?