
據(jù)國外科技媒體VentureBeat報道,微軟研究人員最近利用人工智能讓計算機“學會”了看圖說話——為多張圖片配上注解。
這一技術(shù)具有重大意義,因為計算機不是僅僅辨認出圖片——甚至視頻——中的物體就能將圖片串成一個故事的。
為了讓人工智能學會講故事,微軟員工先給每一張圖片和按一定順序排列的組圖寫了注解,工程師然后使用這些信息教會機器按圖片順序講出完整的故事。
微軟研究人員使用遞歸神經(jīng)網(wǎng)絡來訓練人工智能看圖說話的能力。微軟研究人員使用了一種機器翻譯常常使用的方法——序列到序列學習。
這項技術(shù)有著巨大的應用前景,比如幫助視障患者辨認周圍的物體。實際上,研究人員已經(jīng)跟微軟盲人軟件開發(fā)者Saqib Shaikh合作研究這方面的應用了。
當然,視力正常的人也可以從這項技術(shù)獲益,比如通過看圖講故事幫助人們學習外語,激發(fā)小孩的創(chuàng)造性思維。
智能拍照手機越來越普及,人們通常一次性拍下多張照片,讓機器看懂多張照片之間的關系變得非常重要,而微軟正在往這個方向努力——盡管尚未完全成功。