[ 2018 UCAN 論壇分享] 智能語音設計實踐,新 ” 個人化 ” 思維 – UXeastmeetswest

228 阅读18分钟
原文链接: medium.com

[ 2018 UCAN 論壇分享] 智能語音設計實踐,新 ” 個人化 ” 思維


2017 年可以說是新物種爆發的一年,帶有智能語音的產品開始大量湧現,產品中搭載的人機自然語言(語音)交互系統,開始融入到我們的日常生活中。比如家庭場景中的 “ 智能音箱 ”,可以透過語音搜索影視資源的 “ 智慧電視 ” 等,在 2018 年的今日都已經越來越普及化。

除了家庭場景外,在公共場合其實也開始看到這類語音產品的出現: KTV 中的智能語音點歌系統(如小歡小歡)、機場的服務問詢台等都能看到相關的應用。在上海搭地鐵,甚至還可以使用語音來購買地鐵票。仔細觀察生活周遭可以發現,可以發現智能語音產品,其實已經慢慢的與我們生活開始緊密結合。


語音交互雖然在 2017 年成為了風口上的關鍵字(Conversational User Interface, CUI ),但如果非要在這個時間點對 CUI 下個註解,「使設備聽清、聽懂用戶的自然語言,並能進行正常的語音回覆」可能更符合當前的實際情況。在當前的環境中,其實整個行業仍處於將語音交互從實驗室階段帶到商業環境的過程,更多的工作仍停留在完成語音交互的可用性。

我們嘗試了將目前的關鍵字搜索網絡進行了一次提取,透過這樣的方式來了解大家目前對於智能語音或者是 CUI,真正感興趣的方向是什麼?可以看到大家更多關注的仍在於技術是怎麼樣的?哪些場景適合用智能語音?大部分的關注者多處於探索與嘗試的階段。


在這個備受期待的藍海市場,各大互聯網巨頭想當然的已經開始展開布局,新進者與後繼者正試圖進入這一領域,以及其背後的更具想像空間的智能家居和家庭娛樂市場。

如果從平台、C 端產品、B 端生態等幾個方向來看,東方與西方的互聯網巨頭目前正在布局的方向,包含了搭載於軟硬體的語音助手,消息推送平台,語音開放平台與服務。目的都在於控制語音交互的入口。從移動互聯網入口遷移到物聯網入口,手機上的入口、家庭中心的入口。放在任何有傳感器或 Sensor 的地方,語音交互將會是進入這個最新入口的最有效方式。

雖然從 CUI 的相關技術來看,語音拾別(Automatic Speech Recognition, ASR )目前已經能達到 98% 的準確率:從市場產品來看,智能音箱這個新品類的崛起,也讓目前的各大互聯網公司如火如荼的進行著 “百箱大戰” 。

在當前的時間點,仍然很少智能語音設備是真的做到了體驗先行,一部分是受限於技術和場景的限制,但另一部分的原因是基於 A.I. 的體驗變革尚未真正的開始,許多團隊和公司仍停留在探索所謂的智能時代的體驗設計,究竟該是什麼樣子的?

在去年的的 UCAN 智能化設計分論壇上,我們分享了關於天貓精靈與智能語音的設計原則,包含場景化的設計系統、語音設計思維和相關的 DPL 規範等。經過一年的沉澱與思考後,結合著業務上的實踐與真實的用戶觀察,我們嘗試總結出新的設計理念,並與大家分享基於 A.I. 的 “ 個人化 ” 設計思維。

“ 個人化 ” 設計思維其實就是在現階段語音交互、A.I. 產品仍受限於技術的客觀環境下,無法對用戶體驗帶來更為顯性價值的時間點,所提出的一種新設計思路。

即是通過 A.I. 的能力位每個個體的想像力來賦能。

因為我們認為 A.I. 既然是面相未來的技術,只有與每個人的想像力相結合,才有可能在這個階段真正落入到用戶的生活中,與用戶的情感產生連結。而不是受限或單純的聚焦在當前語音交互所可以帶來的體驗價值上。

人 — 機 — 場 的設計挑戰

2017 年七月正式開始售賣的天貓精靈,直至今日的設備出貨量已經達到了 200w,不單是對業務、產品,對設計也是帶來前所未有的挑戰,同時也帶來了新的機會。

意味著智能語音類型的 A.I. 產品,開始進入到了一個新的階段,如果類比電商 ” 人-貨-場 ” 三元素來說,在這種生活域類型的產品以 ” 人- 機- 場 ” 的切入維度,可能更為貼切。

由人來說:線下用戶的多樣性與可觸及性提高,傳統透過移動設備或 PC 設 備所接觸到較少的人群,比如:兒童、老人用戶,不再是這麼的遙遠 ;
由機來說:設備與用戶有了一線的接觸,同時也改變了傳統 IOT 設備的生態,傳統硬件行業的優化迭代速度,將會開始與互聯網速度接軌 ;
由場來說: 用戶的生活域開始數字化,生活域中的元素、行為、使用足跡開始上線,

意味著線上的互聯網模式,會開始逐步的改變線下生活。


其實可以發現這類型搭載語音交互的智能設備,並不單純代表著一種新的產品,背後其實對應著一種新的現象,而且是在過往的手機、電腦、3C 娛樂產品所無法明顯帶來的價值。

如果我們順著 “ 人- 機- 場 ” 的切入維度和思維去理解,我們可以發現這樣的智能語音設備正正承擔了家庭中的 “ 三端合一 ” 的角色,這樣的三端合一角色其實是指:

語音系統中樞:作為語音系統入口,以及家中的 IOT 設備控制中樞 ;
家庭用戶中心: 家庭中的每個人都能輕鬆的透過語音交互使用,沒有年齡也沒有隔閡 ;
應用流量入口:語音技能和服務都在這樣的設備後等待使用,成為家庭用戶使用服務和內容的入口。

這樣的三端合一性質,可以說是前所未有的現象,而上一個與此相似的產品,其實就是我們的智慧型手機,但在家庭用戶中心的層面上,也有較大的差異。

試著想像在不遠的未來,語音交互和語音服務可能將會充斥在我們每天的生活過程中,原有手機上的服務,可能會越來越扁平,越能簡便的透過語音在不同的設備和場景中使用。

而這些都是我們在這個時間點難以具體想像的,或者說,這些變化都將是我們對於理想生活方式、自然化的交互體驗所進行的想像,透過智能語音系統和不同的語音應用,這些生活方式都將有可能成真。

因此,在前面所提到的三端合一基礎上,在加上用戶數量的大幅增長,其實對用戶體驗設計帶來了難度十分高的挑戰。任何設計如果要提供優秀的體驗,第一件事情肯定是要先釐清產品上所針對的目標用戶群體。

因此在 CUI 的體驗設計中,如果真的要達到好的體驗,精準的家庭用戶族群、完善正確的服務體驗、配套使用的 IOT 或 Sensor,是我們初期設定的幾個必要組成元素。

我們基於這樣的思考維度,在前期的測試階段擬定了幾個關鍵字,作為初步的目標族群研究基礎。
包含了「消費水平」、「性別」、「職業類型」、「智能家居」等四個維度,其實正是剛開始時,這類智能語音產品所批配的目標用戶群體。

但伴隨著產品銷售的數量增長,用戶數量的提升,我們很快的發現,雖然我們在初期透過了初步的篩選維度找到了合適的用戶,但當用戶量由初期的5W 上升到200W 時,越來越多的用戶群體開始加入了產品使用生態中,原本能相對一致的體驗也產生不同結果。

許多用戶的使用方過程中,其實是沒有配套的 IOT 設備,許多用戶也相對不熟悉互連網服務,甚至沒有接觸過。初期鎖定的家庭用戶也變得越來越多樣化。

除了傳統的核心家庭外,頂客族、單身族群,各種不一樣的家庭組成對這類型的產品需求,也是差異較大的。在初期,我們嘗試透過了提供多種技能服務能,快速批配這些不同用戶群體的想像,但隨著數據的表現與不斷的嘗試。

我們發現在這成長與過度階段中,透過 A.I. 的能力讓每個人擁有著語音交互個性化的能力,更能透過用戶的力量快速的完成每個家庭自己的生活想像。

個人化而不再只是個性化

當整個用戶量到達百萬級別時,也讓我們一直在思考,設計師在所謂的智能語音 CUI 中,能帶來什麼不一樣的體驗。會是更好嘛?還是在現階段設計師能做的真的有限。

特別是在目前普遍技術遇到瓶頸,缺乏有效的數據提升的情況下。有什麼是能在這個階段,結合語音、A.I. 能帶給用戶的嶄新體驗。

決策樹人群圈定的方式是 GUI 的作法,由族群下到人群在到特徵與典型用戶,許多電商系統的千人千面,其實說穿了就是這麼一套用戶分層。透過這樣的分層進而提供對應的精準推薦與廣告。透過這樣分層去提升所謂的用戶轉化率。

但如果我們結合了人工智能學習模型的能力,理論上,在計算資源與儲存資源允許的條件下,我們是能去學習每個用戶的畫像,我們能去學習每個用戶的習慣,根據用戶的設置與傾向,進而提供更精準的服務,更具個人化的體驗。

這個概念其實在最初我們是沒有感知的,或者說更多是理解這個能力體現在技術與算法推薦的結果,沒有真正意識到 A.I. 的能力加入後,帶來的產品體驗可能性

在目前的技術限制與資源不足的情況下,A.I. 是需要很多學習數據,透過數據訓練師、設計師一起完成的,更多是不帶偏向性屬於任何人的人工智能,完成的工作其實更多在於可用性上,但其實說,屬於任何人也等同於不屬於任何人,這樣的語音AI 在產品使用,其實很難與用戶產生情感上的共鳴。

語音設計師在目前的過程中,在語音設計上,很大重要的工作仍是幫助人工智能從訓練的維度上升到可用的維度。

我們的工作過程中,包含了對話情境的設計、對話邏輯的設計、對話規則的設計,但這些完成的更多是功能上的可用。這一年的過程中,也讓我們思考從用戶體驗的角度出發,我們到底能從設計角色上,幫用戶產生了什麼價值。

基於這樣的思考,我們在今年嘗試加入了主動訓練和參與式訓練的能力,讓用戶參與共同參與到這個人工智能的訓練過程中。

藉由創造一些語音交互中的擬人能力,甚至簡單的 A.I. 智能化能力,用戶可以快速的透過一些工具,在天貓精靈系統中快速完成自己的想像,甚至去組合出不同的生活方式。這種開放用戶參與進來完成最後一里路的方式,除了能快速幫助每個家庭、用戶群體打造屬於每個人的人工智能,更能快速的產生用戶情感上的連結。

屬於每個人的語音 A.I.

當我們今天把眼睛閉起,聲音是語音交互裡面最直接也最重要的載體,不同的聲音其實背後不只對應的是音色或是波形,承載的是每個人對聲音背後的角色想像,比如我們今天要打了一通客服,聽到了好聽或有磁性的聲音,多多少少也會在腦海中想像那個人的樣子。

因此我們也思考怎麼樣從聲音上進行我們的第一步個人化參與設計,我們在整個音色評估的過程中,其實有許多實驗室級和商用級的方案。

從個人化的角度來說,我們並不希望只是單純的作為上帝視角,提供者幾種聲音方案給用戶,但卻不符合真實的家庭場景。因此我們採用六種評估維度,其中包含了智能、擬人、語音交互的評估因子。作為我們在初步評估聲音想像的切入點。

幾個比較有趣的現像是,女聲的接受度普遍高於男生,沒有侵略性的聲音更能進入用戶家庭場景中。其實也反應出了一個鮮明的角色,進入一個用戶生活是有很大的隔離感的。

在個人化設計中,知道每個人對設計者和開發者都是重要的。在公開的家庭使用場景中,每個人對於語音的使用其實是一沾即走的,使用過程所留下的數據其實很難被針對性的分析。因此聲紋將會是我們去了解每個人的切入點。

設計上,我們透過擬人思考的因子維度,藉由音量大小、語速、發話距離去模擬每個人的聲紋模型,結合AI 的能力,和遊戲化因子的引入,讓個人化的聲紋模型有了不一樣的能力差異,可以因為每個人的需求差異,進而提供不同精準度的服務。

除了聲音,整個語音交互的過程其實還擁有許多個人化的可能性。


雖然智能語音音箱最終的目的,是要提供用戶一個更貼近未來的生活方式,閒聊卻是一個屬於必須但並不會特別加分的能力。

作為設計師很難也做不到每個對話內容都進行設計,尤其每天處在互連網的環境中,我們對於每個家庭的聊天需求和想像,其實很難掌握的十分完美。

但如果我們把這些能力交還給用戶,透過用戶參與自行訂製語料和編寫技能的方式, 可以為每個家庭帶入了快速個人化的可能性,也能讓用戶能更參與到我們的天貓精靈訓練過程中。

甚至這些用戶參與所產出且已經被驗證的內容,其實更符合用戶群體的本身。這個現像也在目前網絡上傳播的影片中可以看到。用戶透過了這樣的自定義能力,不只表達了自己的生活態度,也間接的形成了不同型態的天貓精靈。

我們甚至還能透過更多的擬人設計上,把用戶的想像變為可能。比如說急性子的人常常會說話到一半就會打斷你,有耐心的人,會靜靜等你的話說完後再回复你。這樣的人性化行為到了語音交互上,其實也有一些對應的參數化可能。

總的來說,結合了技術當前的能力,在語音交互與 A.I. 中的剛性、軟性的以及其他能讓用戶參與的可能性,去創造了初步的個人化智能。

透過這樣的方式,讓每個人的個人化智能想像有了一些有意思的結果。

我們甚至能在繼續發想下,後續操作過程還有不同的喚醒詞、不同的情感模擬、甚至人格組合。我們只要知道用戶的使用足跡或是喜好,是不是就能對應推斷出他的人格,進而推薦他可能會喜歡的擬人形像給他。

這些想想都讓我們很激動,這些都是設計師能脫離當前語音算法的技術限制,結合著 A.I. 的能力,把用戶體驗的價值賦予在目前的語音智能上。在當前的限制環境中,把屬於用戶情感的價值部分,帶給用戶本身。

總的來說,用戶將可以共同做為訓練師的角色,輕量化的參與到我們訓練 A.I. 的過程中。在過去我們在 GUI 時代還有所限制,最多只能到達千人千面的階段,但畢竟多少會有精準度不足的問題,更多達到的高度,更多是屬於用戶貼心、私人的工具。

但在 CUI 上,透過數據的訓練、設計師參與我們能提供一個可用的智能語音助手,再透過用戶的主動訓練和參與式訓練,只要用戶擁有了語音設計中的日常工作能力,其實很快的就能讓每個家庭的生活想像成真,產生更貼近用戶的自然生活方式。

在 A.I. 技術的幫助下,找到人,甚至找到對的人將不再是難事,顆粒度將會越來越細,關鍵在於找到對的人後,是否能設計與其的相關性,讓其參與到塑造與連結的過程中。

A.I. 時代的設計價值

設計師需要解決的工作,將會更轉向 A.I. 所需要獲取的信息,與用戶願意提供的信息之間的摩擦。

在今天的 GUI 產品中,我們所熟悉的用戶生命週期,在 AI 時代將會有更多的價值在這之上,在用戶的個人化過程中,將會產生更多屬於自己的情感價值。而這些價值是將會隨著產品功能的迭代,更為深透,留給用戶的。

綜合前面的 “ 人- 機-場 ” 設計思維,最重要的,也是這次讓我們感觸最深的,就是 A.I. 時代每個個體都將有設計價值,而且這設計價值將是雙向的,我們服務用戶、用戶教育我們。

在目前的 A.I. 技術中,可以幫助我們自動完成重複性的任務,騰出更多時間專注在設計更具戰略價值的層面,能讓設計去為每個人設計更加個性化,更加相關,智能和高效的體驗。

本篇文章是今年的 2018 UCAN 設計論壇,Nathan 與同事在智能化設計分論壇中所演講的題目,結合著最初的觀察,和天貓精靈業務從 0 到 1 的體會,到了百萬量級用戶量的一些思考與總結。

或許能為同樣在進行語音設計的你們,帶來一條新的思路 :)

如果你對於 CUI 設計也有不同的看法,或者發現 Nathan 的文章中有錯誤的部分,也歡迎你隨時讓我知道。

這是一個隨時都在變化,隨時都在進步的領域:)

如果你喜歡我的文章,請給我 1~4 個 Claps ,如果你想要看到更多 Nathan 分享更多關於 Conversational UX 的內容,請給我 5~以上的 Claps,對這個領域有興趣的話,也可以隨時騷擾 Nathan 關於 CUI 的資訊囉~

See ya~

-Nathan