許復:運用模擬聲音或是AI大戰場
現在,除了Apple 的 Siri ,就連Amazon 及 Google,也向市場推出了家庭智能助理 Echo 和 Google home。同樣,只要對系統發出指令,像是開關電燈,播放音樂,甚至想透過外送服務吃個披薩,你都只要動動口就能完成。
看起來,這些都是很突破式的進展,不過,不管是Siri,Echo 或Google home,只要是在吵雜的環境下,一身武藝都會像是被打亂了經脈一樣,展現的效果必然是大打折扣。
最近,美國麻州的三菱電子研究中心的新研究,似乎讓人看件了一道新的曙光,他們研發了一種做deep clustering的辨識系統,來分析不同人的聲音樣貌。研究人員說,他們請100 個英語母語使用人士,來訓練這套系統,在過程中有了驚訝的發現:機器竟然能夠辨認不同地方口音的不同使用者。
我們現在就可以進一步想像,機器聽聲辨人的技術,下一步很可能可以發展到這樣的情境:機器人,甚至還能夠像心理師或精神科醫師那樣,透過包括聽聲辨人的各種策略,在自己的資料庫中找到各式各樣的解讀,最終再形成能夠代表結果的數據或解決方案。
聲音,的確展現了很多線索,也能夠發揮莫大的影響力。我還住在倫敦的時候,有次和我的房東閒聊,他很自信地告訴我,只要和任何一個倫敦人聊不到一分鐘的時間,他就可以透過這個人的聲音,綜合他的語調以及用詞,判斷出這個人住在倫敦的哪個區域,以及從事什麼工作。就連中國先秦史籍《逸周書•視聽篇》中也有這樣的論述:內心誠信的人,說話的聲音必定清脆而且節奏分明。
至於影響呢?百靈鳥的聲音,能夠讓人如沐春風,而戰士上場殺敵之前,軍隊必須擊鼓吹號,因為可以鼓舞士氣!你心情欠佳時,是否也會想找特定的幾位朋友談天?你回憶一下,這些人的聲音有沒有共同的特質呢?記者,主播,醫師,律師,老師,話劇演員,這些人在工作時展現的聲音,又有哪些不同的地方?
最近在很多國家都有共享女友,或是共享男友這樣的職業出現,甚至有些人靠著專門和人傾談來轉取收入。也許未來的AI機器人,如果朝向更厲害的聽聲辨人技術發展,再加上近一步達到運用模擬聲音發揮出影響力,那麼,一片腥風血雨的市場爭奪戰必然是可以預見的。
文章只屬作者觀點,不代表本網立場。