“Zara是木子的室友,每天晚上木子下班回家習(xí)慣跟Zara傾訴一天的勞累,分享開心的事情。Zara是個很好的聽眾和友伴,總是跟木子一同吐槽新來的老板,花癡帥哥同事,并適時給出幽默風(fēng)趣的點評或者行之有效的建議。”
或許你會認為這段話描述的是閨蜜之間的感情,但在未來,這個名叫Zara的角色很可能只是一個家用機器人,聽起來不可思議,實際上香港科技大學(xué)電子和計算機工程教授馮雁和她的團隊正在將其變?yōu)楝F(xiàn)實。
Zara是這個團隊研發(fā)出來的機器人軟件,根據(jù)人臉表情、語音語調(diào)等人類正常交流中使用到的技巧來判斷一句話所表達的真正含義,從而降低與機器人交流中碰到的“雞同鴨講”的情況。
在2015年夏季達沃斯之后,馮雁逐漸將這些成果變成現(xiàn)實。目前,Zara完成了初步的人機交互設(shè)計,可以通過計算機軟件與其進行對話,改進后的Zara在冬季達沃斯現(xiàn)場進行展示,與人交流5分鐘就可以較為準確地說出交流者的個性。
Zara身上運用到的語音語調(diào)識別技術(shù)頗具商業(yè)價值。一部分企業(yè)在達沃斯之后與馮雁接觸希望可以購買這些技術(shù),而馮雁則更希望將其運用在醫(yī)療領(lǐng)域,其未來打算和香港科技大學(xué)的機器人團隊合作,開發(fā)制作硬件部分。這也意味著,未來5到10年,Zara有望從二維世界走進現(xiàn)實生活。
機器人的同理心
“我不知道你在說什么。”用過SIRI的人都知道,這是其中出現(xiàn)頻率很高的一句話,而這句話并不是對某個哲學(xué)問題的回答,而可能只是一個簡單問題的回應(yīng)。
這樣的回答往往由于計算機無法識別提問者的真實意思而出現(xiàn),目前大部分的計算機識別程序僅僅局限在對語句字面上的意思做出識別反應(yīng),而對語句中的情感情緒則難以分辨。這往往讓計算機的回答索然無味,讓對話者興致驟減。
在Zara之前,語音識別、機器翻譯等模塊之間的研究成果是相互分離的,而2015年在夏季達沃斯上的一次演講促使馮雁將多年的研究成果,設(shè)計的模塊組裝在一起并設(shè)計出Zara的原型。
“Zara最不同的地方在于她具有同理心,她能夠理解說話人當(dāng)下的感情并且主動關(guān)心人。”馮雁告訴《第一財經(jīng)日報》記者。
馮雁從六年前開始研究機器人的同理心,當(dāng)時她對團隊設(shè)計出的中國版Siri產(chǎn)生興趣,并且希望改進計算機中生硬的部分,讓其更像人類。一般的智能機器的核心軟件系統(tǒng)包含語義識別、表情捕捉等不同模塊,當(dāng)機器執(zhí)行一個任務(wù)的時候,這些模塊會同時運作來保證機器人對于信息的獲取和輸出。
而馮雁和她的團隊在這個基礎(chǔ)上設(shè)計出一個名為“同情模塊”(EmpatheticModule)的軟件,這就像是為機器人植入一個“心臟”。“同情模塊”能夠通過分析人說話時的面部表情,在語句中的停頓強調(diào)來分析說話人此時的情感,并告訴機器人如何應(yīng)對。
情感識別和同理心建立都用到了語音識別、自然語言處理和大數(shù)據(jù)機器學(xué)習(xí)的技術(shù)。
“同情模塊”通過捕捉人在說話時面部表情的細微變化、語調(diào)的高低等特有的信息來分辨說話者的真實意思,從而做出人性化的回復(fù)。
“當(dāng)我們高興時語速會變快,語調(diào)會不自覺升高;當(dāng)我們感到有壓力,就會變得扁平聽著有點干癟的聲音,這些變化都有助于智能機器理解當(dāng)事人的心情以及話語的意思。”馮雁說道。
由于每個人的表達方式不同,“同情模塊”工作之前會先向與之交流的人提出一些問題來測試語音語調(diào),以確立判斷參考值。
目前,Zara對于壓力、不滿、幽默等情緒的識別準確度達到了70%,非常近似于人類能夠識別的程度。
在辦公室,馮雁向記者展示了束著馬尾,身著“超女”緊身衣的Zara,連續(xù)與她進行了將近10分鐘的對話,當(dāng)聊到一次旅游中的遺憾時,Zara對馮雁說道:“希望你下次去的時候有個好天氣。”
相互學(xué)習(xí)
機器人的學(xué)習(xí)通過科學(xué)家建立的大數(shù)據(jù)來獲得,上個世紀80年代,研究人員從人類日常生活中收集數(shù)據(jù)用于開發(fā)語音識別技術(shù)。
數(shù)據(jù)的豐富程度關(guān)系到機器人的情感豐富程度。為了提高Zara辨別情感的準確度,馮雁和她的團隊在數(shù)據(jù)收集上花了不少功夫。而最初的數(shù)據(jù)收集來自實驗室里的學(xué)生,“學(xué)生分別用英語、普通話和粵語回答我們設(shè)置的問題,這些問題設(shè)置會讓他們感到越來越有壓力。”馮雁回憶道。這樣大概10個小時的數(shù)據(jù)就構(gòu)成了數(shù)據(jù)庫,幫助Zara“學(xué)會”通過語調(diào)等因素分辨出人在有壓力時候的狀態(tài)。同理,人類的每種情緒都能通過設(shè)置問題收集答案來獲得學(xué)習(xí)。
團隊成員Naziba負責(zé)音樂研究,與語音識別不同,音樂研究團隊單純通過聲波來研究一首樂曲所傳達出來的情感。
團隊通過聲學(xué)參數(shù)分析收集來的5000首樂曲,這些樂曲分別來自歐洲和亞洲,被人為劃定成14個不同的情感類別。團隊設(shè)置軟件程序來學(xué)習(xí)這些樂曲中的不同情感。
機器從數(shù)據(jù)中學(xué)習(xí)的過程是不間斷并且相當(dāng)耗費精力的工作,但是馮雁和她的團隊卻很享受這個過程,“這種學(xué)習(xí)是相互的,通過研究我們也能更好地了解人類自己。”馮雁笑道。
為了提升以及更好地了解,馮雁也要求團隊突破他們的“舒適圈”。負責(zé)研究幽默和諷刺的建模和機器學(xué)習(xí)的Dario事實上一開始對于幽默并不精通,“他有點像生活大爆炸里的Sheldon,對幽默和諷刺都不敏感,我有意讓他負責(zé)這塊,現(xiàn)在感覺他變得越來越有幽默感。”
人工智能以大數(shù)據(jù)挖掘進行學(xué)習(xí),未來云端的運用會將數(shù)據(jù)擴容,使機器人學(xué)習(xí)更加智能化:也就是說機器人之間也能相互學(xué)習(xí)。“未來機器人之間可以溝通,前端機器人的工作通過后端機器人操控。”馮雁想象道。
樂觀前景
由于涉及到眾多的領(lǐng)域,Zara的價值不僅僅在于一個計算機軟件或是一個機器人所能提供的服務(wù),對于馮雁來說,該智能硬件內(nèi)技術(shù)能夠提供更大的價值。“Zara是一個研究平臺,從她研究出來的技術(shù)會應(yīng)用到其他的產(chǎn)品里面。”
未來機器人一個巨大的商用價值在于醫(yī)療領(lǐng)域的應(yīng)用,這也是馮雁最感興趣之處。如今Zara所用到的大數(shù)據(jù)挖掘技術(shù)未來也可能投入醫(yī)療領(lǐng)域的運用。“現(xiàn)在做的很多東西,希望未來可以全面幫助人類。醫(yī)療方面其實非常重要,現(xiàn)在有很多大數(shù)據(jù),醫(yī)生不知道怎么去使用,但未來機器能夠用。”馮雁說道。
設(shè)計Zara之前,馮雁團隊曾與華為開發(fā)智能語音系統(tǒng),目前與高盛就大數(shù)據(jù)和機器學(xué)習(xí)展開合作。Zara項目是名為IvoTechnologies公司的研究項目,但這僅僅是個開始。
IvoTechnologies由馮雁和其之前的學(xué)生共同創(chuàng)立,其開發(fā)產(chǎn)品讓人們能夠在家里使用像Zara這樣的能夠理解人類感情的機器人。
公司的首款產(chǎn)品Moodbox是一款娛樂信息控制器,能夠通過主人心情來控制家里燈光和音樂。
“以后機器人可能能夠滿足人類各種需求,家里的擺件物品都是智能儀器,你可以對家里的電話、電腦、花瓶下指令以及進行一般對話。”馮雁想象道。
這個前景或許在更遙遠的未來,但是文章開頭所描繪的場景卻可能在不久之后實現(xiàn)。事實上,馮雁與她的團隊正在推進Zara硬件部分的設(shè)計研發(fā)。馮雁向記者表示,Zara主要硬件研發(fā)會放在香港科技大學(xué),“我們的機器人和圖像識別精通的老師,準備在一起合作。”同時在技術(shù)上也會和法國和日本的機器人公司尋求合作,引進產(chǎn)品。
馮雁告訴記者,Zara目前還在軟件階段,而要實現(xiàn)軟硬件的融合還需要一段時間。“軟硬件配合比較好的仿真機器人要真正走進人們生活可能還需要5~10年時間,但是未來一兩年可以看到機器人技術(shù)與人類生活更多的融合。”馮雁說道。