编者按:Alen Cooper是“VB之父”,“交互设计之父”。对于以Alexa为代表的语音接口的崛起,他表达了不同的看法。他的看法没那么乐观,认为尽管语音识别的准确率已经非常高,但是知道说什么和知道文字的意思完全是两码事。就连人与人之间的沟通都一直存在在障碍,更不用人与机器了。

技术最大的难题是告诉计算机做什么事情要比计算机做这件事情的本身更难。数字化的东西完成复杂困难的工作相当容易,但如何传达和指示这种复杂性的微妙之处和意图仍然是永恒的挑战。这也是整个交互设计职业的基本原理。

一些人认为,在我们完善了语音接口之后,引导数字化技术的难度会大幅降低。也就是说,当我们可以跟计算机交谈时,跟它们的交互就会变得简单、明白、容易。这种观念已经持续了几十年,就像在山麓一直燃烧的轮胎之火,永远不会熄灭。随着语音识别软件变得越来越好,当然现在已经相当好了,这股有毒的火焰蹿得更高了。

我们的想象飞到了好莱坞电影的场景,可以跟机器进行不费力气的、有同理心的对话,我们爱之优雅的机器(注:电影《与机器人共舞》)会恭敬地退下去执行我们的指示。它们成为了我们体贴的、心甘情愿的仆人,会对我们的口头指令做出回应。“准备晚餐。”“告诉Jen我可能会迟到。”“把销售提高10个百分点。”“确保没有人跟踪我。”

这种愿景不仅是拟人化的,而且还有点异想天开。这不仅仅是把人的能力灌输到计算机上,而且还是超人的能力。就因为我们头脑能形成想法,我们就错误地认为别人也能给予我们通过喉咙制造的一些噪音形成同样的想法。

仅仅因为你的计算机能识别你说的话,并不能就此推断出它理解了你的意思。跟你结婚的那位,那个已经跟你同床共枕了20年的人刚刚理解了你所说的话的意识。你的计算机可能永远也无法理解你,原因很简单,你说的东西根本就没法理解(但你的爱人懂你)。

混淆、误解以及失败的人与人之间的沟通已有悠久的历史,这一点应该能让我们时刻注意到这一假设是基于我们所希望的而不是实际情况。如果向人传达口头指令都那么令人担心的话,我们又如何能有效地向计算机传达口头指令呢?包括我在内的很多人都认为这个空想的梦幻世界仍将是难以企及的妄想。

“Alexa,把灯关掉!”这个语音识别能力现在是已经有了的。很酷!很有趣!朋友一定很吃惊吧!这不算杀手应用,但却是今天的技术能做到的,所以我们在不久的将来会看到大量类似的行为。当然,你家里每一台蹩脚的、内置了语音识别的家用电器会引发什么意外后果也是很容易就能预见到的。“Alexa,把灯关了!”“不是那些灯!”“不,是那几盏灯!”“Alexa,只关车库的灯!”“不,Alexa,是把它们关掉,不是打开!”“就车库的等。”“该死,Alexa!”

会话式用户界面吊我们胃口和令人困惑的地方之一,是现代软件相当擅长语音识别。不幸的是,“相当好”是个相对的说法,这要取决于你想做什么。

几年前,我的一位在医疗保健业拥有强大血统的好朋友创办了一家公司,想要解决由来已久的医生写病历问题。现在的医生在写病历方面花费的时间几乎跟检查病人所花时间一样多,这一产品有望大大节省时间。我的这位好友打算让医生只需一边望闻问切一边对着颈挂式传声器说出那些要记下来的字即可。该产品依托一个能力非常强大的Dragon语音识别平台。一切都工作得很好,除了一点,该平台对于医疗保健的需要来说还不够好。医生发现自己仍然被迫校对转录的文字。对于关键任务型app来说,99.9%的成功率意味着每1000次就有一次失败。当这关系到别人的性命时,这个成功率是不够的。

虽然在医生这里还不行,但语音识别在许多数据录入应用中仍然有重大价值。比方说,最新的苹果iPhone就相当于我的语音邮件消息的文字转录器。这是非常便利的省时工具,因为哪怕有20%的单词被错过或者误读,我仍然能够在没收听的情况下掌握邮件的主旨。

识别单词跟识别意思完全是两码事,而意思对于给出指令来说是至关重要的。最需要语音识别的地方往往是重要、复杂的应用,在那些场景下,用户的手和眼睛已经在忙住没空了。在电视商业广告里面,那位迷人的年轻女郎坐在最新款的豪华轿车内说一声::“打电话给Robert。”然后她的那位英俊的年轻丈夫就会在她沿着郊区的林荫大道行驶时回她的电话。

不过在我的车里,在现实世界里,情况会略微有点不同。“打电话给Robert。”“对不起,我不明白。”“打电话给Robert。” “对不起,我不明白。”“拨号Robert。”“你是说555-543-1298的Robert Jones吗?”“是的。”“拨号。”“拨住。”此刻我才意识到当我全神贯注地跟它口头沟通时,自己已经错过了出口。从交互设计的角度来说,用户的每一条语音指令都应该被视为关键任务,所以这就是大多数汽车内的语音响应系统自打从陈列室开出来以后就从来都没有被使用过的原因。

现在,想象一下,当你试图控制一辆牵引车,一条装配线,一家喷气式飞机或者一枚核弹头时,也会遭遇像汽车的系统那样反应慢的误解以及迟钝迂腐的蓄意阻挠。这样的命令识别系统的迟钝可不是意外。它们需要如此行事以便解决语音模糊的问题,因为人机对话中有一件事情是不能容忍的,那就是不确定性。悲哀的是,在交互中插入语音也总是会增加不确定性,而这个我预计永远也不会消失。

将来我们会采用越来越多的会话式用户接口,这一点不可避免。这不是因为这些接口好或者比其他接口技术更好,而是因为它们更廉价。它们取代了软件程序,否则的话可能就得要一个人类操作员了。降低成本而不是用户利益推动了这一演进。

Francis Ford Coppola(科波拉)导演的《The Conversation(窃听大阴谋)》是我喜欢的电影之一。这部喜怒无常、有瑕疵的佳作是一部非常深刻、非常个性化的电影,由这位名导拍摄于1974年,那时候他刚刚拍完充满传奇色彩的《教父》。基本上,就像任何好的黑色侦探故事一样,这是一次乔装成谋杀之谜的角色研究。这里重要的是角色,情节,主题,谁是好人,谁是坏人等等一切,这些都要取决于对某个单词发音的解释。

 

交互设计之父:连人都不知道你在说什么,更别说机器了

发表评论

电子邮件地址不会被公开。 必填项已用*标注