语音用户界面(VUI) – 终极用户体验指南

163 次查看
“把闹钟设置为早上7:15”

– “好的,叫Selma Martin`”

“没有!将闹钟设置为上午7:15“

– “对不起。我无法帮助你。“

“叹气” *手动设置闹钟*

我们的声音多种多样,复杂多变。语音命令甚至更难以处理 – 甚至在人与人之间,更不用说计算机了。我们构思思维的方式,文化交流的方式,我们使用俚语的方式以及推断意义……所有这些细微差别都会影响我们语言的解释和理解。

那么,设计师和工程师如何应对这一挑战呢?我们如何培养用户和AI之间的信任?这是VUI发挥作用的地方。

语音用户界面(VUI)是主要或补充的视觉,听觉和触觉界面,可实现人与设备之间的语音交互。简单地说,VUI可以是任何东西,从听到你的声音时闪烁的灯光到汽车的娱乐控制台。请记住,VUI不需要具有可视界面 – 它可以是完全听觉的或触觉的(例如振动)。

语音用户界面(VUI)是主要或补充的视觉,听觉和触觉界面,可实现人与设备之间的语音交互。

虽然VUI种类繁多,但它们共享一组常用的UX基础知识,可以提高可用性。我们将探索这些基础知识,因此,作为用户,您可以剖析您的日常VUI交互 – 并且,作为设计师,您可以构建更好的体验。

发现 – 约束,依赖,用例

我们与世界互动的方式受到我们的技术,环境和社会约束的极大影响。我们处理信息的速度,我们可以将数据转化为行动的准确性,我们用来传达数据的语言/方言,以及该行动的接收者(无论是我们自己还是其他人)。

在我们深入研究交互式设计之前,我们必须首先确定构成语音交互的环境背景。

确定设备类型

设备类型影响语音交互的频谱和范围的模式和输入。

手机

  • iPhone,像素,星系
  • 连接 – 蜂窝网络,wifi,配对设备
  • 环境背景对语音交互性有重大影响
  • 用户习惯使用语音交互
  • 允许通过视觉,听觉和触觉反馈进行互动
  • 交互方法在各个模型中相当标准化

穿戴式

  • 特定用例,通常面向特定用例,如手表,健身带或智能鞋
  • 连接 – 蜂窝网络,wifi,配对设备
  • 用户可能习惯于使用语音交互,但这种交互在各种设备上都是非标准化的
  • 一些可穿戴设备允许通过视觉,听觉和触觉反馈进行交互,尽管有些可穿戴设备更加被动,没有明确的用户交互
  • 通常依赖于连接的设备进行用户交互和数据消费

固定连接设备

  • 台式电脑,带屏幕的电器,恒温器,智能家居集线器,音响系统,电视
  • 连接 – 有线网络,Wi-Fi,配对设备
  • 用户习惯于在相同的位置使用这些设备并在习惯的基础上进行设置
  • 类似设备类型之间的准标准化语音交互方法(台式计算机与连接的集线器,如Google Home / Amazon Alexa与智能恒温器)。

非固定计算设备(非电话)

  • 笔记本电脑,平板电脑,转发器,汽车信息娱乐系统
  • 连接 – 无线网络,有线网络(不常见),wifi,配对设备
  • 主输入模式通常不是语音
  • 环境背景对语音交互性有重大影响
  • 通常在设备类型之间具有非标准化的语音交互方法

创建用例矩阵

语音交互的主要,次要和第三用例是什么?该设备是否有一个主要用例(如健身追踪器)?或者它有不拘一格的用例组合(如智能手机)?

创建一个用例矩阵非常重要,它将帮助您确定用户与设备交互的原因。他们的主要互动模式是什么?什么是次要的?什么是好的交互模式,什么是必不可少的?

您可以为每种交互模式创建用例矩阵。应用于语音交互时,矩阵将帮助您了解用户当前使用或想要使用语音与产品交互的方式 – 包括他们使用语音助手的位置:

按顺序排列交互模式

如果您正在使用用户研究来告知您的使用案例(使用或原始定量/定性研究),那么通过排序透视交互模式对排序进行排序非常重要。

如果有人告诉你:“如果我可以和我的电视对话并告诉它改变频道那将会很酷,那么你真的需要深入挖掘。” 他们真的会用吗?他们了解这些限制吗?他们真的了解自己使用该功能的倾向吗?

作为设计师,您必须比理解自己更好地了解您的用户。

您必须质疑他们使用特定交互模式的可能性,因为他们可以访问替代方案。

例如,假设我们正在检查用户是否可能使用语音命令与他们的电视进行交互。在这种情况下,可以安全地假设语音交互是许多可能的交互类型之一。

用户可以访问多个备选交互工具:远程,配对智能手机,游戏控制器或连接的物联网设备。因此,语音不一定成为默认的交互模式。这是众多之一。

因此问题变成:用户将语音交互作为主要交互方式的可能性是多少?如果不是主要的,那么它会是次要的吗?第三?这将使您的假设和用户体验假设向前发展。

列举技术限制

将我们的言论转化为行动是一项极其困难的技术挑战。通过无限的时间,连接和训练,经过良好调整的计算引擎可以方便地摄取我们的语音并触发相应的操作。

不幸的是,我们生活在一个我们没有无限连接的世界(即无所不在的千兆互联网),我们也没有无限的时间。我们希望我们的语音交互与传统的替代方案一样直接:视觉和触摸 – 即使语音引擎需要复杂的处理和预测建模。

以下是一些示例流程,演示了我们的演讲要识别的内容:

正如我们所看到的……有许多模型需要不断训练才能使用我们的词典,重音,可变音调等。

每个语音识别平台都有一套独特的技术限制。在构建语音交互UX时,必须接受这些约束。

分析以下类别:

  • 连接级别– 设备是否始终连接到互联网?
  • 处理速度– 用户是否需要实时处理他们的语音?
  • 加工精度– 精度和速度之间的折衷是什么?
  • 语音模型– 我们目前的模型训练有多好?他们能够准确地处理完整的句子还是简短的单词?
  • 后备– 如果言论无法被识别,那么技术后备是什么?用户可以利用其他交互模式吗?
  • 不准确的后果– 错误处理的命令会导致不可逆转的操作吗?我们的语音识别引擎是否足够成熟以避免严重错误?
  • 环境测试– 语音引擎是否已在多种环境环境中进行过测试?例如,如果我正在构建汽车信息娱乐系统,那么我将预期比智能恒温器更多的背景干扰。

非线性

此外,我们还应该考虑用户可以以非线性方式与设备交互。例如,如果我想在网站上预订机票,那么我被迫关注网站的累进信息流:选择目的地,选择日期,选择门票数量,查看选项等…

但是,VUI有更大的挑战。用户可以说,“我们希望乘坐商务舱飞往旧金山。”现在,VUI必须从用户那里提取所有相关信息,以便利用现有的航班预订API。逻辑排序可能是倾斜的,因此VUI有责任从用户提取相关信息(通过语音或视觉补充)。

语音输入UX

现在我们已经探索了我们的约束,依赖关系和用例,我们可以开始更深入地探讨实际的语音UX。首先,我们将探讨设备如何知道何时收听我们。

对于某些添加的上下文,下图说明了基本的语音UX流程:

其中表现为……

触发器

有四种类型的语音输入触发器:

  • 语音触发– 用户将发出一个短语,提示设备开始处理语音(“Ok Google”)
  • 触觉触发– 按下按钮(物理或数字)或切换控件(例如麦克风图标)
  • 动作触发器– 在传感器前挥动手
  • 设备自触发– 事件或预先确定的设置将触发设备(车祸或提示您确认的任务提醒)

作为设计师,您必须了解哪些触发器与您的用例相关; 并且排序那些可能与相关的触发器不相关的触发器。

领导提示

通常,当触发设备听时,会有听觉,视觉或触觉提示。

这些提示应遵循以下可用性原则:

  • 立即 – 在适当的触发后,提示应尽快提示,即使这意味着中断当前操作(只要中断该操作不具有破坏性)。
  • 简短和短暂– 提示应该几乎是瞬间的,特别是对于习惯使用的设备。例如,两个肯定的哔哔声比“Ok Justin更有效,你现在想让我做什么?” 前导提示越长,用户的话就越有可能与设备提示冲突。这个原则也适用于视觉线索。屏幕应立即转变为聆听状态。
  • 清晰的开始– 用户应该确切地知道他们的声音何时开始被录制。
  • 一致– 提示应始终相同。声音或视觉反馈的差异会使用户感到困惑。
  • 区别– 提示应该与设备的正常声音和视觉效果不同 – 并且绝不应在任何其他环境中使用或重复。
  • 补充提示– 在可能的情况下,利用多种交互式媒介来表现提示(例如,两次哔哔声,一次灯光变化和一次屏幕对话)。
  • 初始提示– 对于初次使用的用户,或者当用户似乎卡住时,您可以显示初始提示或建议以促进语音通信。

反馈UX

反馈对于成功的语音界面UX至关重要。它允许用户一致且立即确认他们的单词被设备摄取和处理。反馈还允许用户采取纠正或肯定行动。

以下是一些有助于提供有效VUI反馈的UX原则:
  • 实时,响应式视觉效果– 这种视觉反馈在本机语音设备(例如手机)中最常见。它可以在多个声音维度上创建即时的认知反馈:音高,音色,强度和持续时间 – 这些都可以响应地实时改变颜色和模式。
  • 音频播放– 简单的播放,以确认语音的解释
  • 实时文本– 文本反馈将在用户说话时逐步显示
  • 输出文本– 在用户说完后转换和修改的文本反馈。在将音频确认或转换为动作之前,将其视为第一层纠正处理。
  • 非屏幕视觉提示(灯光,灯光模式) – 上面提到的响应式视觉效果不仅限于数字屏幕。这些响应模式也可以表现为简单的LED灯或灯光模式。

结束提示

这个提示意味着当设备停止收听用户的声音并开始处理命令时。许多相同的“主要提示”原则适用于最终提示(即时,简短,清晰,一致和不同)。但是,一些额外的原则适用:

  • 足够的时间– 确保用户有足够的时间完成命令。
  • 自适应时间– 分配的时间应适应用例和预期响应。例如,如果用户被问到“是”或“否”问题,那么结尾提示应该在一个音节之后期望合理的暂停。
  • 合理的暂停– 自上次录制声音以来经过了合理的时间吗?这是非常棘手的计算,但也在上下文中依赖于交互的用例,

会话用户体验

像“打开我的闹钟”这样的简单命令不一定需要冗长的对话,但更复杂的命令可以。与传统的人与人之间的互动不同,人与人之间的互动需要额外的层次确认,冗余和纠正。

更复杂的命令或迭代对话通常需要多层语音/选项验证以确保准确性。使问题更加复杂,通常用户不确定要询问什么或如何要求它。因此,解密消息并允许用户提供其他上下文成为VUI的工作。

  • 肯定性– 当AI确实理解语音时,它应该回复肯定的消息,该消息也确认了语音。例如,人工智能不是说“当然”,而是说“当然,我会把灯关掉” – 或者“你确定你想要我关灯吗?”
  • 纠正– 当AI无法破译用户的意图时,它应该使用纠正选项进行响应。这允许用户选择另一个选项或完全重新开始对话。
  • 同情– 当AI无法满足用户的请求时,它应该承担缺乏理解的所有权 – 然后为用户提供纠正措施。移情对于建立更加个性化的关系非常重要。

人体模拟的用户体验

赋予人类特征以进行语音交互会在人与设备之间建立关系。这种拟人化可以以各种方式表现出来:灯光模式,反弹形状,抽象球形图案,计算机生成的声音和声音。

奥利
奥利:

拟人化是人类特征,情感或意图对非人类实体的归因。

这种关系在用户和机器之间建立了更紧密的联系,也可以跨越具有类似操作平台的产品(例如Google的助手,亚马逊的Alexa和Apple的Siri)。

  • 个性– 为交互带来额外的维度,允许虚拟个性与用户联系和同情。它有助于减轻错误处理的语音的负面影响。
  • 积极性– 一般积极性鼓励重复互动和肯定的基调。
  • 信心和信任– 鼓励额外的互动和复杂的对话,因为用户更有信心,结果将是积极的,并增加价值。

端到端Motion UX

语音交互应该是流动的和动态的。当我们亲自交谈时,我们通常使用无数的面部表情,语气,肢体语言和运动的变化。挑战在于在数字化环境中捕获这种流体相互作用。

如果可能,整个语音交互体验应该感觉像是一种有益的互动。当然,更多短暂的互动,如“关灯”,并不一定需要完整的关系。然而,任何类型的更强大的互动,如用数字助理烹饪,确实需要长时间的对话。

有效的语音运动体验将受益于以下原则:

  • Transitory– 无缝处理不同状态之间的转换。用户应该感觉他们永远不会等待,而是助手正在为他们工作。
  • 鲜艳– 鲜艳的色彩传达了喜悦和未来主义。它为互动增添了未来主义优雅元素 – 鼓励重复互动。
  • 响应– 响应用户输入和手势。给出关于正在处理哪些单词的提示,并允许用户查看他们的语音/意图是否被准确地解析。
通过AGI汽车仪表内自然AI格列布Kuznetsov✈

结论和资源

VUI是非常复杂,多方面的,并且通常是混合的互动混合。事实上,并没有真正全面的定义。重要的是要记住,日益数字化的世界意味着我们实际上可能花费更多时间在我们的设备上,而不是彼此。VUI最终会成为我们与世界互动的主要手段吗?走着瞧。

与此同时,您是否打算构建世界级的VUI?以下是一些有用的资源:

 

赞赏


微信赞赏

支付宝赞赏

java架构师历程,欢迎扫描关注