智能语音产品的未来会是如何,在产品中怎样正确利用智能语音?
问:你觉得智能语音未来会对交互有着怎样的影响,会不会取代 UI 交互吗?
答:智能语音是未来的趋势,我们现在已经开始使用语音交互。
在一次机器人交流会上,我向一位来自优必选的演讲人提了上面的问题,但我并没有得到想要的答案。智能语音的未来会是什么样子,怎么用智能语音做出好的产品呢?我一直在不断地尝试各种产品,不断地思考。
试验
我找到所有涉及智能语音的相关产品,都挨个体验了遍。智能手表,智能音箱,智能机器人。还有手机上的各种助手,像苹果的Siri,Google的 Allo,微软的 Cortanna,助理来也。这些产品有硬件的,也有软件的。终端有 PC,手机,手表。系统平台又有 mac,android,iOS等等。
第一次使用上面的产品并不自然。就像第一次使用触摸屏手机,没有键盘,很不适应,特别是打字。缺少按下去的实体感觉,会让人觉得触摸是个很生硬的操作。还好,手机提供按下震动反馈功能。慢慢适用后,不需要震动也可以的。而相对触摸操作,智能语音是一种更前沿的交互方式。
触摸操作缩短了按键操作交互路径。在手机没有触摸功能之前,想要点击某个按键时,得先把焦点移动到目标位置。有了触摸功能,一个手指头戳过去就行了。那智能语音相较于触摸操作会不会也有同样的意义呢?触摸操作是基于 UI 的,将屏幕作为载体。智能语音则不需要界面,没有边界。
换句话说,智能语音突破 UI 交互的层级,直达目标功能。好比说,以前你去政府机关办个证件,你得按流程路径走,先去 A 部门盖个章,再拿这个章去 B 部门盖个章,等你集完所有章,就可能兑换最后的卡片了。每个部门都得跑,跑错了就办理不下来,不熟悉的人跑下来晕头转向的。现在呢,下个 App,按要求上传几张电子证件,等个几天,证件就办好了。嗯,还包邮。中间,你不用跑一个部门,也不需要知道先跑哪个部门,再跑哪个部门,一个操作就搞定了。语音就类似这样,以前要几个界面点击,现在就是一句话的事儿。
体验
上面是我对智能语音意义的理解。但目前真正在应用阶段,并不理想。这里面有诸多原因,我认为主要是两方面的限制:
语音识别可靠性。16 年 11 月份的时候,科大讯飞开了个发布会,宣称语音识别的准确率达到 97%。而同一时间,百度,搜狗也开了发布会,准确率也达到 97%。这个准确率对于商用的意义有多大呢?我做的有个机器人的项目,机器人可以跟用户聊天对话。机器人语音识别的技术就是采用科大讯飞的。我们在公司测试的时候,搞个简单的一问一答对话都没问题。你问机器人,今天天气怎么样?结果很快就能出来。当我们拿到房地产售楼处,效果不理想,并且跟预期的差距是没有预料到的。
在公司测试的时候,会有杂音,整理环境不算安静,时而有人说话。当时,觉得这种测试环境不算理想,虽然偶尔有错误但也能接受。售楼处环境不一样,因为营销需要,一直有电视播放营销视频。就算没有人说话时,机器人也会识别这些声音。这时候要是有人跟机器人对话,机器人根本无法准备识别说话的内容。人多的时候,售楼大厅里时刻都有人说话,一唤醒机器人,机器人就在那里呜哩哇啦了,说一些莫名奇妙的话。因为它识别出的内容都是乱七八糟的。
当然,你也可能说这是场景的原因。在家时或者车里就没这么糟糕了,这是应用层面的问题。如果语音识别不能在技术上解决可靠性的根本问题,那它的应用领域和范围也大大受限制了。这里面需要解决的问题也很多,多个人同时跟机器人说话时,要区分好不同人说的话。张三说了哪些话,李四说了哪些话?如果有背景噪音,甚至是人说话的噪音,都要能够去掉。
语义理解。如果只是单纯地解决语音识别可靠性问题,也就是听得清的问题,并不能称得上智能语音,智能语音还要解决听得懂的问题。只有听得清,听得懂,才能知道要做什么事情。
你对机器说,我要吃苹果。苹果是什么,它不知道。所以你得告诉它,让它学习,有明白苹果的能力。苹果可以是一种水果,可以是一部电影,还可以是一个品牌。那苹果到底是什么呢?如果你告诉机器,只有代表水果的那个苹果才能被吃。那机器就能准确理解你说话的意思,知道你的意图了。做到这一点,就能让机器明白听得懂你说话的内容。
在语义理解领域,相关技术成熟度是远不如语音识别的。要等到语义理解足够成熟还是需要很长的时间。现在有第三方开放的自然语言理解接口,像 Google 收购的 api.ai、百度的 UNIT。你可以利用它们开放的 API 来让你的产品有一定的理解能力,改善你产品的交互体验。接入的过程就像教一个小朋友不断地学习新的知识,不停地写各种表达式,喂给机器,停不下来。你能积累多大的知识库,就看你能写多少。想写得多,那就堆人力呗。有多少人工就有多少智能,所以人工智能。傅盛讲做小雅智能音箱时说了,像「上一首」、「再来一首」的指令泛化都是靠人工的。
业务落地
Siri 刚出来那会,用户期待很大,媒体说这是乔布斯划的一道光,是未来的趋势。以后想要做什么事情,对着手机讲一声就好了。后面很多公司也出了类似的语音产品:出门问问,虫洞,搜狗语音助手,百度语音助手。 大部分产品做了一两年后都停了。现在只剩下大公司在玩了,苹果的 Siri, Google 的 Allo,微软的 Cortana,百度的度秘。
从 2012 年算起,Siri 出来有 5 年多,身边没见有一个人用。前几天,跟一个做智能语音的朋友交流,他问了两个问题。
你觉得 Siri 做得怎么样?怎样做得更好?
Siri 必须要做得更好,12 年出来的产品,到现在,并没有太大的进步。而 Amazon 智能音箱作为后起之秀,却开拓了新的领域。正好有新闻说,Siri 也要换新掌门人了,以前一直都是 Eddy Cue 负责,现在改为 Craig Federighi 负责。苹果肯定也是想将 Siri 与 iOS 和 macOS 做一步融合,突然对 Siri 也有了很大的期待。
Siri 要想做好,先得从入口着手。苹果给了 Siri 快捷入口,但知道的人不多,长按本身就是一个较深的操作。知道的人呢,体验两三次就不用了。与同类产品相比,Siri 在很多方面都需要做改进。
适时的引导。Siri 是新产品,学习新的东西就有成本。不像一般类型的产品,有明确的功能,用户很容易在短时间内建立起产品的认知。用户对 Siri 的理解是,它很厉害,什么都知道。但你稍微问一个偏门的问题,Siri 就傻傻不知道了。要让用户理解智能助手干什么,你需要在合适时间告诉它。
明确的功能界线。Siri 需要给用户划出明确的界线,让用户知道它可以做什么,哪些事情做得比较好,哪些是不擅长的。但不要简单给出提示:「你可以这样问我:xxxx」。
友好的互动。做智能助手,肯定不能一直沉默在后面,不然就沦为工具,只能等到我需要的时候才想起你。而实际上,Siri 没有一个聚焦的功能,用户很少会想得到如何使用它。像Google Now,Cortana 就比 Siri 好得多,这种互动是双向的。即时的互动提醒,根据询问内容给出多种样式回复:有图片,有文字,甚至猜测你的意向来给出相关问题。另外还有待处理事务的卡片式提示。
如果让你来做语音,怎样做好智能这个点?
智能的本质是做好两件事情:预测和建议。
从用户角度来讲,智能就是我做完第1步,你知道我第2步想做什么。而不是说我让你做1件事情,你就按照命令去做这件事,这叫功能。比如说,你对 Siri 说,明天早上 7 点钟叫我起床。Siri 就帮你定好了闹钟,但这没有什么智能可言。
就目前技术,我们不可能做得很智能,预测某支股票是涨还是跌。在一定范围内是可以做一些事情的,已经有些产品做得比较好。你对 Cortana 说到沃尔玛附近的时候,提醒我买牙膏。Cortana 会问你哪个沃尔玛?你说哪个沃尔玛都可以。等你到沃尔玛的时候他就会提醒你买牙膏。Google Now 也是一样,你到了上班的时间没有走,它会提醒你不要迟到了。下班时间到了,它会告诉交通状况怎么样,开车回去需要多长时间。这中间我并不需要标记上班的地点,住的地点。Google 会收集我的轨迹,然后自动标记出来。
上面的的预测和建议都是建立在数据源基础之上。通过收集用户的行为数据来判断你的生活习惯,意图,情绪等。这些数据可以来自:Email,网页浏览历史,日历,位置,短信,其它第三方的App。但不是所有人都愿意把自己的隐私开放出来。
作者:lei,公众号:monster_talks。
*请认真填写需求信息,我们会在24小时内与您取得联系。