不管怎么說,現(xiàn)在確實是開啟人工智能時代的最佳時機。因為,對人工智能起到關鍵作用的的幾個技術因素在這幾年開始趨于融合,比如數(shù)據(jù)的指數(shù)級增長,大型計算能力,特別是深度學習技術獲得了迅速的發(fā)展。


一個新興技術,在應用層面開始被認可,人工智能某種程度上改變了其幾十年來介乎科學與工程學之間的尷尬地位。這些應用,包括機器人(智能個人助理)、無人駕駛、醫(yī)療、金融等,人工智能在未來將會無孔不入。
無人駕駛、機器人 起飛卻無法落地的人工智能
先來說說無人駕駛,谷歌在很久以前便開始在這一領域布局,對谷歌來說,提前釋放所謂的黑科技是其慣用的PR手段。無疑谷歌這一手段是成功的,近兩年,眾多汽車廠商與百度開始將這一概念在國內(nèi)釋放。

理論上無人駕駛也是人工智能一個非常有前景的應用領域。但目前無論是技術上還是倫理上,無人駕駛短期內(nèi)面臨很多無法解決的問題。
首先是安全問題,據(jù)央視《法治在線》欄目報道,今年1月,一位23歲男青年駕駛著自己的特斯拉轎車在京港澳高速河北邯鄲段公路行駛,未能及時躲避前方的道路清掃車而發(fā)生追尾,事故導致該名車主身亡??梢岳斫鉃榧夹g實操上仍存在著諸多未解決的問題。
其次國內(nèi)不少廠商也正在無人駕駛領域持續(xù)投入,包括百度、樂視等等,但這些廠商無一例外目前都沒有拿出太多讓大眾滿意的成果。
同時比較關鍵的一點是,對于無人駕駛來說,愿景雖好,但實現(xiàn)很難。今年4月,公安部交通管理科學研究所副所長孫正良曾公開表示,“未來需要建立車車通信、車路通信的安全認證機制,以及讓路側設備智能化、電子化。如果這些東西都沒有,將來要求無人駕駛難度相當大。”
可見無人駕駛這項人工智能技術真正落地還需要很長一段時間。
除無人駕駛技術外,一些公司還開始做起了機器人,比較有名的是由日本軟銀集團和法國Aldebaran Robotics共同研發(fā)的Pepper,除此之外還有“小度”、“賢二”以及一些國內(nèi)創(chuàng)業(yè)公司所研發(fā)的機器人,在品質(zhì)上雖然有高有低,但都以娛樂博眼球為主,并沒有實質(zhì)的場景應用價值。
語音助手可能是未來AI落地最靠譜的方向
相對于無人駕駛、智能機器人,幾年前為了“解放雙手”, 語音助手被看作下一代非常有潛力的交互方式和搜索方式。而近兩年人工智能技術開始成熟之后,語音助手被賦予了更多的意義,人們期待未來語音助手真正能夠理解用戶、幫助用戶完成一些任務。從技術的角度,這幾年國內(nèi)外的幾個大廠商都已經(jīng)基本完成了第一階段的技術積累。

美國科技界兩大巨頭——蘋果和谷歌,都在近期顯示出加碼智能語音助手的決心。一個是iPhone7發(fā)布會上,蘋果的AirPods增加了Siri的使用場景,而Google 近期在發(fā)布會上也突出了Google Assistant的核心地位,無論是Pixel還是Google Home,其內(nèi)在核心都是Google Assistant的運用和聯(lián)動。
所謂的智能語音助手,顧名思義是在語音正確識別的基礎上,理解用戶所表達的真正意思,并為用戶提供實質(zhì)性的幫助。而語音識別的準確率是智能語音助手真正發(fā)揮智能的技術基礎。
其實,人類已經(jīng)花費了幾十年去研究語音識別技術,但誤差率一直都無法降低,直至去年,在英語識別方面,人類在室內(nèi)的語音識別誤差率還停留在約8%,語音識別技術的誤差率則在12%,而且還是實驗室內(nèi)的結果。
從目前的發(fā)展來看,國內(nèi)的語音識別技術已經(jīng)開始領先于國外。我們以目前語音識別領域排名第一的搜狗公開的數(shù)據(jù)來看,目前搜狗輸入法的語音識別準確率已經(jīng)超過了97%。
97%的準確率是什么概念?相當于一些人耳朵不好分辨的語音內(nèi)容,搜狗語音識別已經(jīng)能聽得懂了。這個比例,其實已經(jīng)超越了國外的語音識別技術水平。此外,搜狗輸入法的語音識別功能平均每天被調(diào)用次數(shù)達到1.9億次,這樣的數(shù)據(jù)規(guī)模也是目前國內(nèi)語料規(guī)模最大的,同時也讓搜狗輸入法的語音識別準確率可以更迅速地提升。
但是就像王小川自己說的,人工智能劃分為識別、生成和決策三個階段,識別與生成是同等重要的;而要讓人工智能產(chǎn)生市場價值,決策才是讓人工智能變成商業(yè)智能的核心。正常的邏輯下,針對特定場景的人工智能才是當前最成熟,也是最容易落地的。
事實上,這幾年特別是在國內(nèi),之所以智能語音助手能夠在用戶群中廣為普及,某些娛樂應用功不可沒,比如兩年前的微軟小冰。
這種應用的好處在于接地氣,娛樂性很強,具有一定的“病毒性營銷”效應,能夠迅速讓用戶體驗語音識別、語義理解。但其實這種娛樂類的語音助手,個人認為受限于開放環(huán)境的限制條件,無法提供針對所有用戶提出問題的正確回應。
在我看來,在保證語音識別準確率的基礎上,搜索引擎公司擁有做智能語音助手的最好基因,畢竟搜索本來就是一種用戶獲取信息的方式,語音助手本身就是對搜索的體驗進一步升級。利用語音識別技術針對于垂直場景所開發(fā)的智能語音助手,更切合實際應用,這種方式要比噱頭更有實際意義,也有利于人工智能技術的實際發(fā)展。
值得一提的是,搜狗目前已經(jīng)開始在垂直場景下發(fā)力,比如前一陣子推出的“語音修改”,用戶可以用自然語言的形式修改自己輸入的內(nèi)容,比如“把弓長張修改為立早章”等。在智能導航領域,用戶如果想要去機場,只需要告知導航系統(tǒng)航班號,即可提供相應機場地點與時間等信息。
當然,我們也有理由相信,技術的發(fā)展會為我們帶來通用型的語音助手,但個人認為,短期之內(nèi)做好垂直場景的體驗和技術積累,會讓通用型助手來得更快。