语音交互的基本概念和设计实践

注:语音技术的发展,将会给我们的产品设计带来极大的改变。未来的产品方向,或者说是人机交互的方式,极可能是视觉与听觉的更加立体的交互,我们会有机会来设计一种完全不一样的用户体验,和完全不同的产品认知。

一、什么是VUI?

作为新一代的交互模式,通俗的说,VUI(语音用户界面)就是用人类最自然的语言(开口说话)给机器下达指令,达成自己的目的的过程,这一过程包括三个环节:

能听、会说、懂你。

VUI是一种以人类内心意图为中心的人机交互方式,以交谈式为核心的智能人机交互体验。

最典型的应用就是语音助手,当下最热门的产品就是智能音箱了。

二、语音交互有什么优势?

  • 输入更高效。研究结果表明,语音输入比键盘输入快 3 倍。如果你从解锁手机到设置闹钟需要两分钟,直接说一句话设置闹钟,可能只需要 10 秒钟;

  • 表达更自然。人类是先有语音再有文字,每个人都会说话但有一部分人不会写字,语音交互比界面交互更自然,学习成本更低;

  • 感官占用更少。一张嘴,将人的双手、眼睛从图形界面交互中解放出来,想象一下当你手握方向盘时,说一句话就直接接听电话、播放音乐,是不是更方便也更安全。腾出来的感官,意味着可以并行处理其他任务,理论上有更高的效率。

  • 信息容量更大。语音中包含了语气、音量、语调和语速这些特征,交流的双方可以传达大量的信息,特别是情绪的表达,其表达的方式也更带有个人特色和场景特色。当见不着面,听不到声音的时候,人与人之间的真实感就会下降很多。

VUI不再依赖固定的路径完成操作指令,而且是每个人都可以有自己的方式和特色。

这是VUI与GUI革命性的改变。

对今天的App、浏览器而言,其直接下达指令的特性,使得语音交互可能成为一个全新的、去中心化的超级入口,也正是因为此,彻底引爆了整个市场。

从“百团大战”之后,我们又见到了“百箱大战”。

三、语音交互存在什么障碍?

语音百般好,应用一时难。

语音交互走到今天,已经付出了非常大的努力,但依然是有多少人工,就有多少智能。

“智能”与“智障”之间,隔着一线天。

当然,对从业者来说,当下的语音交互认为应该处于一种“没有想象的那么好,也没有想象的那么差”的境地。

1.注意力障碍

语音交互是非可视化的,带来的问题就是增加人的记忆负担。你打过银行的客户电话就知道,你必须集中精力听完语音播报之后才能做下一步动作,如果你比较着急的话,那你就会非常的难受。事实上,人在获取信息的适合,视觉要强过听觉。

别人讲话时你可能要等他说完你才理解,而你看文字的时候,甚至可以直接跳过部分文字你也能理解,特别是中文。所以,音箱添加屏幕是趋势。对于语音的效率问题,可以说是单方面的输入更高效,而双向互动反而效率不高。

或者说,获取信息的时候,视觉有很大的优势,而声音的效率并不高(现实中为什么总会出现“打断”对话的现象,就是因为语音的表达效率不高,听者等不及)。

2.心理障碍

想象一下你晚上一个人在家,你会不会突然开口叫一句”小明小明,明天什么天气?”莫名其妙的语音,会让人感到一丝不自在,特别是一旦小明存在一定缺陷的时候,所引发的错误。从心理感受出发,没有多少人愿意对着冰冷的机器说话,然后得到毫无感情的甚至是错误的回应。语音交互存在的另一个心理障碍是,语音交互的不可预设和预判性。

不同的人,在同样的情境下都可能产生完全不同的行为和预期。这给设计者来说带来很大困扰,也为用户带来不确定性的担忧。

在面对不可预知的状况下,设计者和使用者互相难以领会彼此的意图,就会形成一种博弈消耗。

为了应对这种不确定性,可能导致系统必须通过更多的场景理解和上下文关系,去解析用户的意图来做出可能合理的信息反馈,这将进一步带来技术的复杂度。

3.技术障碍

语音交互为什么如此受到期待,是因为太富有想象空间了,能够让我们尽可能的释放被占用的感官。想象一下,你只说一句“订一箱牛奶”,快递就会在约定好的时间送过来,多美好的生活。现实生活中,人与人的交流,甚至一个眼神一个动作就可以引起对方的注意和反馈。

而现阶段的智能音箱需要定义一个将助手从待机状态切换到工作状态的词语,即所谓的“唤醒词”,这是一个不得已而为之的蹩脚设计,你想做什么之前都要先来一句“小明小明”,这种叠词的对话方式特别让人反感。

实际上,语音交互的技术依然存在巨大挑战,还很难在复杂的环境和不确定的情景下,真实的理解用户的行为和意图,想要给出用户在不同场景下的期望值,软硬件技术都还有漫长的路要走。

今天的语音交互,在某些场景下,本身就是一种劣势。比如你站在电视机旁边,开关机这个动作最适合的交互应该是手——直接一按就可以解决,为什么还要开口说话?

这一点说明:不是什么设备都可以加一个屏幕,也不是什么什么都可以加一个麦克风。

语音交互是否能够广泛应用,有赖于对场景的深度理解,以及人能智能技术的进步。

语音交互好不好,不仅仅依赖硬件设备的识别准确率,更需要垂直场景下的语义理解,以及后端内容服务的连接。

四、语音交互能否取代图形界面?

结论是:语音和图形交互不存在取代,就像人的眼睛和耳朵一样。

不得不感叹造物主的神奇,千百万年来的进化,给了我们这样一个绚丽多姿的世界。

人类耳听、眼观、嘴说、手动的自然构造,说明适应环境最好的方式就是分工合作,协同感知和应对环境,并作出最合适的行为反馈。

所以,最符合于人类的人机交互体验,就是在不同的场景由不同的器官(方式)来完成,以一种自然的与外界进行信息交互。

随着技术的进步,交互的方式定将发生颠覆式革新,未来的人机交互将更趋向于立体和本能。GUI+VUI,是一对有机的结合体,因为它符合人类的本能,语音交互不是取代触摸交互的升级,二者之间只会彼此共同促进,通过恰当的协作机制提供更好的用户体验。

但,我们需要清晰的理解二者之间存在着本质性差异:

  • GUI是一种预设路径的交互方式,通过识别用户的下滑、点击、双击等交互行为以及用户所处的页面位置,判断用户的指令并作出准确的反馈。这是一种单一路径的操作方式,但足够清晰。

  • VUI聚焦于如何发挥语言和表意的强大力量,采用人们日常的语言来交流,真实,自然的表达和获取反馈,获取用户的信任、传递信息。

语音交互的流程更加直接,用户甚至可以发出不同的语音指令来期望获得同一个反馈。

五、语音交互的未来会变成怎样?

1.无处不在

想象一下你在家里,最好的方式一定是不管你在那个房子,你都可以说一句“小明,明天送一箱牛奶”,而不是非要找到某一个音箱设备才能下达指令。

也就是未来的语音助手,一定是移动的,或者说是无处不在。

同时,借助一系列的传感设备,从声音纹路、体征指标、环境指标,综合评估和理解当下的真实环境,并给初恰当的反馈。

2.主动服务

现在所有的语音助手,都还是被动地交谈,你必须给出命令,它们才会应答。

但想像一下未来,当深度学习和大数据已经做好了充足的准备,语音助手能预知你接下来要去哪,要见什么人,甚至在想什么,只需要用语音的方式输出这些信息。你不再需要点亮手机去查看这些智能的提醒,随时随地,会有一个声音和你主动交谈。

也许,未来技术的发展,各种穿戴设备,甚至植入体内的芯片会带给我们完全不同的与外界交互的途径。

但以当下我们对自身的理解,人的获取外界信息和表达内在情绪的感官体验,依然无法被取代。