编辑导语:如今的智能虚拟助手,已经越来越“物联网”化了,它不仅依托于智能手机、Pad和PC端,它还会出现在音响上、汽车里、电灯、电冰箱等等各种家用电器中。本文作者对智能虚拟助手的设计、交互,和市面上的智能虚拟助手等方面进行了分析,一起来看一下吧。
你好谷歌,帮我把卧室的灯关了。
你好谷歌,帮我把温度设置为75度。
你好谷歌,给我妈发条消息,告诉她我10分钟后就到。
你好谷歌,帮我找一下制作鸡的菜谱。
这是谷歌助手官网的一段宣传语,虽然只有简单的四句话,但却生动地描绘出了虚拟语音助手和人类日常生活的场景。
我曾在我的上一篇文章中讲过chatbot聊天机器人,而虚拟助手也可以算是一种聊天机器人,但也有所不同。
聊天机器人在狭义上更多的是指现在市面上很多依托于移动端、PC端的对话机器人,这些聊天机器人的主要交互方式是触屏或屏幕点击,辅之语音。
而智能虚拟助手的载体就会丰富很多,它不仅依托于智能手机、Pad和PC端,它还会出现在音响上、汽车里、电灯、电冰箱等等各种家用电器中,也就是越来越“物联网”化了。
如今,我们和手机、电脑的关系只是停留在人与工具的关系,通过操作它们我们可以与世界连接,给亲人发微信,在购物网站搜索想要的东西买买买。
而智能虚拟助手作为一个机器人,一般都有一个叫起来朗朗上口的名字,有性别,还会叫自己为“我”,有的智能虚拟助手甚至还会有自己的性格。我们通过和智能虚拟助手交谈与世界连接,叫它帮我们发送消息,叫它帮我们买买买。我们和智能虚拟助手的关系更像是人与人之间的关系。
siri刚刚推出的时候,很多人会喜欢问siri:“几岁了,有没有男朋友?”这样的问题,就是因为此时的用户多了一层“情感”。
你是否有这样的困扰,每天都要不断地拿起手机,很难专注做一件事。
微软的一份报告指出,我们的注意力从从 2000 年的 12 秒下降到 2020 年的 8 秒,低于平均水平的金鱼。
现在的世界充斥着各种五花八门的app,我们的注意力正被不断的分散。人类在阅读的时候,眼睛会迅速扫描 —— 远、近、上、下,所以一个夺人眼球的视觉效果把我们成功吸引后,过一会一个新的视觉效果又会再次夺走我们的注意力。
与视觉相比,我们的听觉的注意力会高很多,由于我们的耳朵不会乱“动”,所以我们一次就只能专注一件事情,听觉触发的专注力持续性也更强。
芝加哥布斯大学行为科学教授Nicholas Epley在他的研究中写到:“你无法看到另一个人的思想,但你可以听到它。”
当我们用眼睛阅读的时候,我们需要在我们的大脑中来模拟我们看到的内容。而当我们聆听时,通过声音的音调、音高、音色等,我们可以更深入的听到别人的声音特征和情绪状态,聆听给用户的体验会比阅读更加亲密、舒适、人性化,更容易使人产生信任。
近几年,播客越来越火,有数据表明,大多数的播客听众都会收听播客的结尾,播客的保留率相比其它媒体更高。同时播客的听众还会收听结尾的广告并采取行动,播客广告的转化率也要比其它媒体高的多。
正是因为声音的这种「超能力」,注意力经济的争夺正逐渐从视觉注意力转向听觉注意力,为了保持对注意力经济的控制,近些年世界各大科技巨头都纷纷投资各种博客和虚拟语音助手,包括亚马逊的Alexa、谷歌的 Google Assistant等等。
虽然前面讲到听觉注意力的魅力巨大,但是目前阶段的用户通过智能虚拟语音助手能做的也只是发出一些指令,一些很简单的交互,比如询问天气、设置计时器、播放歌曲等,还远没有达到可以通过智能虚拟语音助手感受到交互式聆听体验的阶段,在未来,这也许就需要我们设计师来继续探寻。
虽然语音是智能虚拟助手的主要交互媒介,但也不仅仅只限于语音。相机、照片也可以作为智能虚拟助手的交互媒介之一。
用户只需要将相机对准一个对象,停留片刻,智能虚拟助手的后台数据就会标记用户对该对象感兴趣,从而不断迭代更新自己,变得越来越了解用户。目前,苹果、谷歌都已经开始研发这种技术,相信在未来相机作为智能虚拟助手交互媒介也会更普遍、更智能。
「Alexa」的名字来源于《星际迷航:原始系列》和《星际迷航:下一代》中的计算机语音和对话系统,开发人员使用Alexa这个名称是因为X这个辅音可以准确的被识别。
- 公司:亚马逊
- 唤醒词:Alexa
- 主要载体:智能音箱Amazon Echo 、Echo Show
智能音箱Echo于2014年11月发布,有可以放置在任何地方的小型智能音箱,还有带有大触摸屏的智能音箱。小型智能音箱已经发行了4代,大型触摸屏智能音箱的是近几年才开始发售的。
谷歌助手在2016年5月发布,依托于google平台,它的优势主要在于出色的语音识别性能、搜索准确度高。
- 公司:Google
- 唤醒词:Hey Google
- 主要载体:智能音箱Google Home
智能音箱Google Home 于2016年11月在美国发布,可以播放音乐、收听新闻,还支持智能家居,用户可以通过语音命令控制家里的电器。
「Siri」一词在挪威语中的意思是「带领你走向胜利的美丽女神」。苹果公司于2010年4月28日收购了Siri公司并重新开发后,Siri成为了苹果设备的内置软件,通过Siri用户可以用自然语言和设备进行交互。
- 公司:Apple
- 唤醒词:Hey Siri
- 主要载体:智能音箱Apple Homepod、Apple Homepod Mini
智能音箱Apple Homepod于2018年上市,支持Apple Music、Airplay和HomeKit,会自动将自己设置为家庭中枢以提供智能家居服务。也许是因为定价高昂,缺乏第三方支持,Homepod已于2021年3月停止生产。
DuerOS是百度度秘事业部研发的对话式人工智能操作系统,是百度全球领先人工智能技术的重要应用之一,借助百度的生态,DuerOS拥有海量数据和出色的中文识别能力。
- 公司:百度
- 唤醒词:小度小度
- 主要载体:小度智能音箱
小度智能音箱于2018年6月发布,拥有1000万小时的有声内容和400多项生活常用技能,是智能音箱行业的新贵之一。
AliGenie于2017年在云栖大会上推出,与其他虚拟助手类似,阿里精灵能够进行智能家居控制,音乐播放,语音购物,播报天气等。同时阿里精灵是一个开放平台,允许不同制造商在该平台上开发并将其内置到第三方产品中。
阿里精灵开放平台:https://www.aligenie.com/
- 公司:阿里巴巴
- 唤醒词:天猫精灵
- 主要载体:天猫精灵方糖、带智能屏的天猫精灵
天猫精灵于2017年7月5日发布,2017年8月8日正式开售。是阿里巴巴人工智能实验室研发的智能音箱,具有娱乐、生活、购物等多个领域的数百个功能。
2017年9月小爱同学随着小米电视发布,适用于小米的智能音响,手机,电视,手表及手环等穿戴设备,建构在小爱开放平台数据库上,可直接连接至米家物联网系统。
- 公司:小米
- 唤醒词:小爱同学
- 主要载体:小米小爱音箱、小米触屏音箱
小爱音箱于2017年7月发布,能向用户反馈日程、天气、路况等信息,还具备设定闹钟、语音备忘等功能。小爱音箱还可以和小米智能家居产品进行捆绑,通过语音交互控制电视、盒子、扫地机器人、电饭煲、空气净化器、电风扇、智能灯等小米生态链设备。
智能虚拟助手的体验设计和传统的互联网体验设计并没有特别大的区别,我们在进行智能虚拟助手体验设计的时候,完全可以借鉴互联网体验设计领域里的一些方法和原则。
但它们也并不完全一样,由于智能虚拟助手设计以「语音交互」方式为主,所以还存在一些独特的差异点。
1)智能虚拟助手设计更关注全流程的体验
智能虚拟智能助手一个很大的特点就是依附的终端非常多,只要是个连接互联网的智能设备,它都能存在。这个设备可以是电视、汽车、冰箱或者智能手表,多终端依附也是智能虚拟助手的一个非常大的竞争优势。
而这一特点也就使得智能虚拟助手对设计师的要求和传统的互联网产品是截然不同的,设计师要关注用户全流程的体验,而不仅仅是局限于某一个终端。
比如,用户刚刚在移动端观看某电影,当他打开电视的时候,智能虚拟助手会询问用户是否继续播放刚刚在移动端看的电影。
在智能虚拟助手的设计中,让用户能够在不丢失上下文的情况下,在多个设备中灵活自如的切换,也是要重点关注的一个点。
2)智能虚拟助手设计存在更多不确定性
智能虚拟助手的主要交互方式就是语音对话交互,这种交互方式更接近人类的自然行为特征,与我们在一般的网页或App中用手指或鼠标点按屏幕的形式不同。
语音交互会给用户一种截然不同的感受,而这种感受会让用户觉得更加人性化,更开放,但这也就导致了智能虚拟助手存在更多的不确定性。
比如在App设计中我们可以使用二次弹窗来防止用户出错,出错后可以撤回,但智能虚拟助手的防错纠错机制就更为复杂,可控性更低。
如果问你,现在市面上的虚拟助手,比如siri、谷歌助手长啥样子,你的脑海中会有印象吗?也许你脑海中会有各种智能音箱的硬件形象,但是在软件层面却没有一个具体的形象。
由于人工智能是很抽象的一个东西,并且是以语音交互为主,所以很难给人一种视觉上的存在感。所以现在谈到智能虚拟助手的视觉,能让人想到的的就是一个极具未来感的3D立体球或者波浪,随着声音的音调变化,这个立体球也会跟着产生动效。
由于智能虚拟助手的交互方式以语音交互为主,所以智能虚拟助手的交互设计和我们传统互联网产品的交互设计还是会有所不同,那么具体有哪些设计点需要我们去注意的呢?
当我们把我们家里的家用电器连接到智能虚拟助手时,经常会听到一段「欢迎语」,告知用户连接成功,该如何操作之类的话。
如果这段「欢迎语」在你每次连接成功或者打开时都会有,那么尽量使它不要太啰嗦,简单一句话告诉用户接下来该怎么办即可。
冗长的欢迎语如果只在第一次出现那么还可以接受,但如果用户已经对产品非常熟悉,每次打开都要听这么一段长长的欢迎词就相当于是APP中的加载等待延迟界面,用户无法跳过,但必须要等待,这个时间越长,就会让用户越抓狂。
如果欢迎词太长,还有一个弊端就是这种机械化重复的欢迎词会让用户感觉不到智能虚拟助手的人情味。
智能虚拟助手采用语音交互的方式,区别于一般的手机和电脑触屏,很大一点就是设计师希望智能虚拟助手可以在用户心中扮演一个人类伙伴的角色,一个朋友或者一个管家,他们会和我们聊天,他们有性别、有名字,甚至还有一点自己的性格。
如果每次都出现一段这么官方且冗长的「欢迎词」,会让用户感受不到这位智能虚拟助手的人性。
人类的短期记忆是有限的,Jakob Nielsen的研究表明:短期记忆只能保存大约7块信息,这些信息在20秒内就会在大脑中消失。
在触屏交互中,所有信息全部展示在屏幕上,随着用户视线的移动,信息再进入到大脑中,用户不需要记住屏幕中的全部信息,只需要专注于眼睛看到的那一块信息。
设想一个你想让智能虚拟助手推荐餐厅的场景,如果在触屏界面中你会看到一个长长的列表将推荐的餐厅展示给你。
在语音交互中,人类短期记忆的影响就很大,如果智能虚拟助手一下子把这长长的一串饭店名报给你,你根本记都记不住,又该如何选择呢?
那在语音交互中针对这个问题有什么解决方法呢?
方法一:分段说
我们在进行界面设计的时候,会有一个神奇的7+-2原则(就是指人的短期记忆的最佳状态是一次最多记住 5~9 个选项信息,如果超出这个数字,人的记忆就会容易出错),比方说我们在展示手机号的时候往往会拆成3段,这样更便于用户查看和记忆。
而这样的方法同样也可以运用到语音交互中,我们可以把一段长信息拆分成几个更小更容易让用户记住的块。
比如说我们可以让智能虚拟助手先说几个(这个数量要尽量少,让用户可以用短期记忆记住,一般建议 3 个),让用户先在一个小的集合内进行选择,然后再询问用户是否想听更多,这样逐步跟进。
方法二:分类说
我们还可以先让用户根据兴趣爱好筛选,把范围缩小,这样还能提高用户的选择效率。
智能虚拟助手中的语音交互给用户的是一种全新的体验,新事物往往会给用户一种不确定性、不安全感。这种不安全感在「反馈方式」方面表现得尤为突出。
比如,我现在设置了一个5分钟的计时器,如果在手机界面,我们可以清晰直观的看到倒计时数字一秒一秒的跳动,从而知道我的计时器正在运行。
有一句成语说得好,叫做「眼见为实」,看不见的东西往往很难让人相信。在智能虚拟助手上我们看不见计时器的跳动,心里可能就会想,它在不在计时呢?过了5分钟它会提醒我吗?
在智能虚拟助手的语音交互中,好的反馈方式不仅可以减少不确定性,还能帮助提升用户的信任感。那么不能使用视觉,应该怎样反馈用户呢?
我们可以让智能虚拟助手重复用户说的话,来告诉用户智能虚拟助手已经接收到的指令。智能虚拟助手也并不是100%准确的,如果用户发现智能虚拟助手理解错误,那么他可以立马让其更正过来。
当用户发出一个带歧义或者不清晰的指令时,智能虚拟助手也要继续追问用户,确定情况,减少失误。这样不仅有利于提升用户信任感,还可以促进用户与智能虚拟助手之间的「人际关系」。
在界面设计中,我们在完成某个任务流程时,会遇到返回修改数据的情况。在和智能虚拟助手进行交互时,我们也要允许用户返回修改之前的数据。
上一点我提到,我们在和智能虚拟助手进行语音交互时,需要让用户可以修改数据。我亲自测试了某头部公司的智能音箱,目前也暂不允许用户通过语音交互修改数据的操作,如果想要修改必须要到手机App中进行修改。
其实这是目前很多智能虚拟助手的现状,就连苹果Siri也是如此,虽然苹果公司鼓励用户尽量通过语音的方式使用Siri,但交互的重要部分还是需要触摸屏触摸。
也许是受限于技术原因,但我们作为设计师需要有这个意识,就是既然我们选择语音交互作为智能虚拟助手的主要交互方式,那我们就要尽量让我们的用户仅通过语音就可以完成任务,这样才是一个真正让人愉快的语音交互。
人工智能机器人一个很大的魅力就在于它有机器学习能力,关于机器学习大家可以看我的上一篇文章《如何设计聊天机器人?》。
拥有机器学习能力的机器人就会变得很「聪明」,根据用户频繁说的或做的事情,机器人会慢慢搜集这些信息,当逐渐了解用户的喜好和习惯之后,将它们逐步转化为用户价值,为用户提供更合适、优质的服务体验。
但这样拥有机器学习能力的智能虚拟助手在智能家居中还是会遇到问题,比如说你家里有一个智能音箱,每天都会用它来播放你爱听的音乐,当你结婚了,家里还多了一个小baby,你的智能音箱就会经常播放许多儿童音乐,它会认为是「你」喜欢这些儿歌。
当你自己一个人想听音乐的时候,还是给你推荐了儿歌,那样你的体验也会变得很糟糕。
亚马逊已经在尝试解决这个问题,它们推出了一种语音识别系统,可以根据命令它的人的声音来配置文件,这个技术已经越来越成熟,希望以后我们虚拟助手都能「智能」的为家里的每一个成员提供专属于他们自己的定制化体验。
想象一个场景,如果你现在在图书馆里看书,你想让对面坐着的一位陌生人帮你递一下书,你会和他说:“你好,请问可以帮我递一下那本书吗?”,当对方递完后,你会礼貌的回一句“谢谢”。
另一个场景,你和你最好的朋友一起在图书馆看书,你想让坐在对面的他帮你递一下书,此时你和他说:“你好,请问可以帮我递一下那本书吗?”,递完然后回他一句“谢谢”,他肯定以为你“中邪”了。
人与人之间的对话方式往往由他们之间的关系决定,就算是相同的意思,说话的方式也可以截然不同。陌生人之间的对话会添加很多的礼貌用语,对话会更冗长、更正式;而熟人之间的对话就会比较简洁。
在进行智能虚拟助手的交互设计时,我们需要关注到用户的说话方式,让智能虚拟助手在回答用户的时候,镜像用户说话的语气和正式程度,这样会让他们感觉更舒适自然。
如果用户喜欢简短高效的说话方式,那么就简单利索的回复他;如果用户喜欢用一些礼貌用语,那么也要礼貌的回应他。
10. 注意声音和界面风格的一致性
虽然说智能虚拟助手以语音交互为主,但它肯定还是会对应有智能手机或pad端的页面,而这些页面的视觉风格也需要和虚拟助手的声音匹配。
在这里先给大家做一个小题目:
虚拟助手小宁同学是一位声音柔和的软妹子,而虚拟助手大瓜是一位声音浑厚有力的男声,那么下面两张图分别适合他们哪个呢?
图片的颜色、图形都会传递给用户一种感受,而声音的音色、音调也同样会传递给用户一种感受。我们在进行智能虚拟助手的设计时,会着重关注智能虚拟助手传递给用户的“人设”感受。智能虚拟助手会存在在智能手表、手机、汽车和各种家用电器的面板中,合适的界面风格会帮助建立这种“人设”形象。
智能虚拟助手的最大的亮点就在于它背后的人工智能技术,这项技术可以为用户带来极大的便利性并提升用户体验。
作为用户体验设计师,我们不能在没有明确目标场景的情况下,就为我们的智能虚拟助手“硬塞”入人工智能技术,让别人觉得我们的产品很酷、很前卫,但忘记了用户使用产品的目的和体验。
我们需要在心中始终谨记:人工智能只是服务于产品、帮助产品为用户提供价值的一种技术。不能先想到我们有哪些技术,然后再去想象产品功能应该是什么样的,这是本末倒置的。
我们的智能虚拟助手在询问用户的时候,一般只会提问比较具体的某一个点,然后再逐层追问。
但有的用户会习惯把他的需求一起说出来,这个时候我们需要分析记录用户说的所有信息,来帮助用户快速达成目的,而不是获取到我们想要的答案后,用户说的别的信息就直接忽略。
用户在和我们的智能虚拟助手对话的时候,有的时候并不会按照提问的方式进行回答,这往往会导致系统识别不了用户的回答,为了得到可识别的答案,有的系统会以“教导”的形式告诉用户,应该怎么怎么说。
这种形式一来很啰嗦,二来这种类似命令的口吻会把用户的错误放大化,从而让用户感到很受挫。这里可以采用轻量化的方式,再次向用户发出提问,在不让用户察觉的情况下,“纠正”自己的回答。
智能虚拟助手扮演的是用户的“助理”角色,作为一个得力的小助理,在用户有困扰的时候,我们需要竭尽全的帮助用户,比如尽可能多的提供信息。
在与用户描述信息时,不要说一些不重要、无用且重复的细节,这样不仅会加重用户的短期记忆负担,还会让用户经历漫长的等待而逐渐失去耐心。
我们不能一开始就要求用户以系统要求的规范去回答问题,而是要以用户优先,让用户先按照他自己习惯的方式回答,然后引导用户完善答案,从而符合规范。这样用户的感官体验会轻松许多,不会有一种被约束的感觉。
智能虚拟助手虽然是未来炙手可热的话题之一,但其所面临的安全性问题也饱受争议。
智能虚拟助手如果在家用设备中,家庭中的每一个成员都可以与它交互,当儿童使用的时候,需要他们接触到敏感内容,这就需要生物识别技术进行判断当前用户是否为儿童,这个方面也是很重要的。
当智能虚拟助手设备被多个成员同时使用时,一个可靠的安全系统就变得尤为重要,每个人都不希望自己的隐私被侵犯。
目前行业中比较有前途的一种认证方式就是语音生物识别技术,有研究表明,语音识别的准确率可达到95%
还有一个比较棘手的问题就是智能虚拟助手设备对假的录音、合成语音的识别,目前已经有相关技术来解决这个问题,但是该技术依旧很不成熟。也有一些人指出,可以把语音识别和别的认证方式(比如人脸识别、指纹扫描)相结合,来提升安全性。
现在智能虚拟助手的主要应用在家用c端领域,在未来,智能虚拟助手会更广泛的应用到b端领域。比如智能虚拟助手会应用在实体店、政府机构中,为用户提供店铺中的相关服务,比如办理签证、驾照等。
在智能办公、智能城市中也会运用到虚拟助手,比如智能虚拟助手可以帮助安排会议、记录会议纪要等。
本文由@陈婉宁 原创发布于人人都是产品经理,未经作者许可,禁止转载。