编者按:2003年,市场推广咨询师Fred Reichheld 在哈佛商业回顾上发表了一篇文章,《你需要提高的唯一一个数字》,引发了商业世界的热议。自此之后,NPS信徒大有人在,许多企业讲起纳入用户体验小组工作成果的考量。但是,这个指标真的管用吗?本文编译自Noteworthy的原题为“Net Promoter Score Considered Harmful (and What UX Professionals Can Do About It) ”的文章。

Fred Reichheld的观点是,企业只要问自己一个问题,而这个问题关注的是消费者忠诚度。这样,管理层就能把控消费者对自己企业情感层面的体验。文章结尾,他总结道:

“这是唯一需要提高的数字。就这么简单,但却至关重要。”

然而,事情却没他想的那么简单,也没那么重要。这个数字也没法让管理人员了解到客户是否忠诚。

不过,净推荐值(简称NPS)确实满足了所有“实用”商业指标的基本的要求。

  • 易于衡量

  • 有数字可追踪

  • 让人觉得合理

尽管很多研究人员都在研究中说明了NPS并没有这么神奇的作用。NPS的概念还是牢牢地扎根于许多企业的脑海里。每天我们都能看到有企业推出新的NPS衡量项目。

各行各业的领袖继续高唱NPS的赞歌。比方说,Stephen Bennett在任职Intuit的CEO时这么说过:

“现在,每个业务部门都将(NPS)作为其战略计划的一部分; 它是每个运营预算的组成部分; 是每个高管的奖金的评估因素。每个月做运营评估时,我们都在谈论NPS值的进展情况。“

利用这个指标来辅助关键决策的企业远不止Intuit一家,但是这个指标,衡量的内容却不是他们所想象的那样。事实上,NPS衡量的内容没什么特别的。那我们就来解析一下,看看这个指标的实质到底有多虚。

NPS公式的背后:古怪的计算方法

净推荐值评分的一个疯狂之处,就在于它的计算方式。 初始数据来源是一个简单的调查。 受访者要回答这样一个问题:你向朋友或同事推荐某公司的可能性有多大? 以0-11分为评分范围,0代表“根本不可能”,10代表“非常有可能”,让受访者从中用一个数字作出评价。 (后来的调查发展出了不同版本,Fred Reichheld建议调查者问受访者给出该评分的理由,我们稍后会解决第二个问题。)

一般的统计人员只会报告受访者所有评分的平均值。 然而NPS要的不是评分数字的平均值。 处理方法是,按分数将受访者分成三个部分:

任何评了9或10分的受访者被称作推荐者,7或8分则是被动回复者,而评出6分及以下的是批评者。

NPS得分计算公式是:

NPS得分=推荐者占比减去批评者占比

比方说,我们有10个受访者的分数。 数据是0,0,1,4,5,6,7,8,9和10。

这10个数字的平均值是5。

计算NPS得分,得出的是20%-60%,得出-40。

平均分5分听起来还马马虎虎,比较中庸。但是-40听起来也太糟糕了。虽然没有-100糟,但是也够坏了。

这是因为,NPS的基本思维是,一个给出中立评分的人不会像推荐者那样,跟别人说公司的好话。 中立评分者也不会忠诚。 我们需要把这个中间群体转化为推荐者。 所以,目前给出中间群体也算在批评者之列。

NPS无法体现用户体验做得好不好

假如有一天,我们运气不好,10位受访者全给出了0分,这十个数字的平均值也是0。NPS是-100。 也就是最糟糕的评分。这很有道理了。 0分是糟糕的分数。 那团队自然没有奖励,很正常。

但是,假设说这个团队很努力,他们努力把产品变得更好。

经过这些艰辛的努力,产品得到了10个6分的评价。

这十个评分的平均值是6。

但是NPS仍然是-100。

由于其计算方式,NPS不能区别6和0。但是却没人在意这一点。所以记住,如果你在像Intuit这样的公司工作,所有人从0变为6所付出的努力都不会得到回报。 你的CEO也得不到奖金。 就好像你没努力过一样。

当然,这是因为每个受访者都给了6分。加入产品做得足够好,每个人都给出8分呢? 评分平均值是8。然而,NPS现在是0。

将所有用户从0分到8分的团队,无疑是成功的。 但是,如果你的团队看到NPS是零分,肯定不会感到满意,那么对成员们就没有奖金。

使数据集为是10个9分,平均分也是9,,NPS就奇迹般地变成100分!

这跟10个8分相比,可是100%的改进,所以, 你就拿到了奖金。 通过稍微改一改这些数据,NPS评分就从中间评分一下跃升到了最高评分。 

正如以上举出的例子,NPS计算没有什么意义。 这些分数变来便去,忽上忽下,其实背后没有商业或数学原因。

小的增量应该导致分数小幅度增加。 只有大的改进才能导致大的分数变化。 然而,NPS却不是这样来反映变化的。

这就是Kate Rutter所谓的“分析戏剧”(Analytics Theatre)。 让数字出现大幅度的变化,来达到戏剧化的效果,其目的并不是帮助改进产品或服务的质量。

平均值可以帮助我们更好地了解数字的变化情况。平均值才是简单,却能揭示重要的改进的工具。

如果NPS的问题是其计算方式,那么我们用回平均值就万事大吉了。 然而,平均数据只有在数据本身有意义时才有效。 但不幸的是,由于受访者NPS问题的理解,我们得到的数据集是没有意义的

把背景噪音当作音乐来欣赏?0-10打分的闹剧

如果我也做个调查, 问正在阅读本文的你说:“你觉得这篇文章有趣吗?”,然后给你三个选项,“有趣”、“无趣”和“不确定”。三选一,你是很容易给出答案的。

这个评价范围有3个选项。如果有5个选项:“有趣”、“一点有趣”、“不确定”、“一点无趣”和“无趣”,你回答起来就不那么简单了。什么叫“一点无趣”?意思是说,你有一点感兴趣,但是文章让你感兴趣的程度不足以让你继续读下去吗?

如果有7个选择,就更困难了。这时候,光是贴标签,可能信息量已经太大,所以我们转而使用数字:很有趣,6分,5分,不确定,3分,2分,很没趣。

这不仅很难回答,甚至都不好理解。3分和2分有什么区别?两者都是负面评价,但是这两者有实质区别吗?受访者真的可以保持态度一致吗,不仅是每次回答都给出相同评价,更在于受访者之间,他们本身就有不同,各有自己的倾向性?

NPS评分有11个选择(0到10分)。这个范围很大,但数字之间的区别不太鲜明。你和我用同一款产品,体验可能相同,但是我给7分,你给6分。但这样的评分区别,又意味着什么?

我们似乎应该能够理解6分和7分之间的区别,但是很多受访者其实无法区分两者。他们选择某个数字,随机的成分很大,很难解释。

如果所有人给出6分,NPS为-100,而如果所有人给出7分,NPS就是0。仅从NPS看来,有非常大的区别,但是对于受访者来说,就像背景噪声一样没有意义。 受访者也不能说出为什么他们给6分不给7分。

NPS问题所在: 问的问题不对 回答也不着边

我们计算NPS时,问的问题是“你将XX公司推荐给自己的同事或者朋友的可能性有多大?”。表面上看来,这个问题涉及的是客户忠诚度。但是在其作者首次在哈佛商业评论提出NPS概念时,他声称,NPS与重复购买和推荐是有很积极的相关关系的。

后来的研究表明NPS与上述二者关系不大。 原因如下:

最好的研究问题问的是过去的行为,而不是未来的行为。如果受访者被问到下列问题:“你愿意尝试健康的生活方式吗?”或者“你愿意尝试少吃糖吗?”或者“你会购买这个产品吗?” —— 这些问题的要求受访者预测他们未来的行为。 但是我们真正感兴趣的他们做过的事情,而不是他们将来可能会做的是。 我们感兴趣的是受访者的实际行为,而费对他们行为的预测。

以下是英国分析顾问、NPS爱好者Dan Barker给出的例子——一个来自单一电子商务用户为期16个月的NPS数据摘录。

由上图可以看出,Dan有9个NPS数据点,从5到10都有。但是这些数据没能告诉我们的是,受访者到底有没有真的做问题里问的事情——我们无法得知他们是否真的会向同事朋友推荐某产品。

Dan的购买者数据显示,他们对自己投入最高(110美元)的产品,给出8分评价。而投入较低的产品(57.6美元),得到9分评价。他们评价为5分的产品,是10分产品的价格上只少3美元。从这份数据看来,消费行为和NPS评价之间没有太大关系,也显示不出客户忠诚度。

NPS真的能体现用户忠诚和增长吗?

培养客户忠诚是一个漫长的过程,这关乎一个人长期以来的行事习惯。 Fred Reichheld在其最初的哈佛商业评论的文章中说:

“忠诚指的是,某人愿意做出投资或个人牺牲来加强关系,无论是客户,员工还是朋友。”

然而,NPS问题并无论及投资或个人牺牲。它甚至没谈到忠诚。它只是问用户会不会推荐某家公司。

问受访者将来可能做什么,这问的不是忠诚度。这是乐观精神的表现。

如果我们真的有兴趣了解别人的忠诚度,我们可以问一个不同的问题:在过去的六周里,你是否有把某公司介绍给朋友或同事?事实上,Netflix运营早期向客户提出的就是这个问题。 Netflix还问了另一个关键问题:你是否经同事或朋友推荐,才使用我们服务的?

当人们对这些问题做出肯定回答时,Netflix的新用户和增长率正是处于稳步上升阶段。 而当人们不再回答“是”时,Netflix就看到不断有人取消订阅,获取新用户的速度减慢。 这些问题都与Netflix的增长直接相关。 而这些问题询问了过去的实际行为,而不是对未来行为的预测。

NPS很少能真实反映用户体验

我写这篇文章的时候,看到联合航空公司的网站说,我这一生中,共飞行891,116英里。今年,我乘坐联合航空航班49次,共飞行73,890英里。这个数据本身似乎就显示了我是联合航空的忠实客户。

但如果你在Twitter上关注我,你就会发现我经常吐槽联合航空的客户服务质量差。如果联合航空要我在0到10分范围给他们特定航班的服务打分,我的评价都不会超过5分。 (5分还只是乘客没挨揍的时候) 那我还算是联合航空的忠实客户吗?不管是NPS问题(未来行为),还是Netflix问题,如果我诚实作答,我给联合航空的评分算很高了。

但是你没想到的是,我总是推荐联合航空。出了波士顿,他们真的是飞往美国西海岸目的地的最佳选择。他们国际服务也尚在可以容忍的范围。

但“最好的选择”不代表“服务让人满意”,它们是一对最差的选择里最好的一个。我推荐他们,不是因为我喜欢他们,而是因为其他选择更糟糕。

有个朋友知道我在写这篇文章,于是向我介绍了他们在使用花旗网上银行网站后,收到的NPS问题。

我的朋友登录了他的花旗账户来转账。 这笔交易发生在5天前,并不显眼。 为什么会有人推荐花旗来做这样一个普通的业务。 (例行的银行交易应该挺不起眼的,如果这么普通的问题都“脱颖而出”,可能意味着出了问题。)

NPS设计的目的,并非让客户在这么小的细节上做反馈。 这个问题完全可以在再做4次交易的时候再问。如果转账很顺利,客户怎么会记得这种简单业务的细节呢?

根据NPS设计的目的,将这个指标用作决策参考因素,就已经够糟糕的了。 如果企业事无巨细,都希望得到NPS反馈,那就真的会带来大麻烦,因为他们得到的评价毫无意义。

将NPS嵌入定性研究

多年来,我们研究NPS,想定性这个指标,因此要求受访者解释他们给出的分数的理由。结果发现了很重要的一点:人们不了解NPS问题。

典型的给出低分的受访者,使用实验室的产品或服务时,体验可能相当完美,但却给出低分。但我们询问原因时,他们会讲一些自己过去的悲惨经历,让他们不去推荐这项服务。我们问他们后来有没有使用公司的产品或服务,他们说用了,并且用了很多次。

同样,也有用户在使用产品或服务时候花了很大功夫,最后评分为10。他们会说:“比我想象的要好”或“我认为没问题”。但当我们问他们,是否会再使用这种产品或服务时,他们会说“可能不会”。

我们看到许多受访者评价为0,因为他们想不到要推荐给谁。其他人则因为有朋友在同一家公司工作,所以评了10分。当公司提供受访的激励,比如说有机会赢得100美元的亚马逊礼品券,我们看到受访者可能给出高分,因为“别人才不会把奖品送给给自己评0分的人”。

我们了解到,NPS并没有告诉我们有关客户的体验或忠诚度的信息。事实上,NPS不会告诉我们任何有用的信息。

NPS很容易被糊弄

如果受访者的奖金与NPS评分上升相关,想要提高受访者的评分,提供100美元的奖励就是个好方法。 这不是糊弄NPS的唯一途径。

在用户交流的后期再询问问题,也可改善NPS结果。 一个理想的“欺骗”手段,就是在成功完成任务之后再提出问题,例如在用户购买之后。

在完成任务之后才问,并且只问那些愿意买的人。 这样一来,任何因为使用体验不好而放弃产品或服务的用户给出的评价就不存在了。 这自然也扭曲了NPS结果。

另一个诀窍是忽略回复率。大多数NPS跟进或任务后调查的回复率只有4%-7%。答复率为7%意味着,每有1人回复,就有13人没回复。这13人的评价会和已回复者评价相同吗?可能不会。

回复率低的一个原因是,对产品或服务使用体验不佳,因此可能不会给你反馈。使用Fred Reichheld的忠诚度定义,这些人对进一步投资不感兴趣。

为了真正糊弄NPS得分,就得鼓励批评者尽快退出。故意让他们有不好的体验,强迫他们放弃。这样,所有的受访者都倾向于积极的经验。 (即使你没有故意这样做,很容易偶然发现存在这个问题,但几乎没有方法来发现和纠正问题。)

这些黑暗的NPS糊弄技术可以产生更高NPS分数,这带来更多奖金。这样不就没人落单了吗?

我们认为NPS是有害的。糊弄NPS,看起来好像企业已经取得了经验,改善产品、服务质量,当实际状况可能在恶化。

调查的真正价值都在于后续的问题

NPS的信徒告诉我们,没有任何调查项目只看NPS。每一个好的调查都跟着一个定性的问题,问受访者原因。一些复杂的系统会根据受访者给出的评分改变问题,问推荐者“你喜欢我们什么?”,问批评者“我们可以改进什么?”。

这些信徒说得有道理。因为调查真正的价值在于找出背后的原因。客户告诉发生了什么,你可以如何改进(或者确保你保留做得好的地方。)

对于这些NPS的支持者,我告诉他们,获得这些有价值的数据是好事。他们为什么要理会NPS评分呢?只需问用户质量方面的问题。而支持者的反应通常是嘟嘟哝哝碎碎念,或者其他一些毫无意义、听不懂的天书。

我们将这些“为什么”问题添加到个人定性用户研究中。而用户的答复往往暗示了设计中和不同组件之间配合存在的问题。与此同时,同一个受访者,NPS分数很少反映其使用期间发生的任何事情。这反映的我们在现实世界中收集的数据。 NPS并不基于我们生活的任何现实。

但我们的高管就想要一个数字!

最近,一家财富500强公司的设计高级副总裁告诉我:“每个部门都会在高级职员会议上做展示,并给出一些数字,通常是NPS。 如果我不使用NPS,我需要另一个数字。 我需要一个数字来告诉大家该如何改进。“

但是,我们有千千万万个数字。 事实上,有无数个。然而,没有一个数字能代表公司的客户体验。NPS也不行。 但是,我们永远不会停止寻找的步伐。

我们可以使用一个商业上的数字,如订阅数量或用户流失量。 我们可以也使用销售额,净收入或利润。这些数字不直接体现产品或服务的设计。 他们也不能告诉我们,客户是满不满意,使用过程愉不愉快而这就是NPS设计的目的,尽管它并不成功。 那我们能做些什么呢? 我提出以下替代问题:

  • 你今天有多高兴或沮丧?

  • 我们今天有帮到你吗?

  • 我们让你开心吗?

我认为这些问题并不重要,因为你真正感兴趣的是下面这个问题,让你能做出改善:

  • 它怎样才能变得更好?

后续问题才是是价值所在。 你可以用很多种方法去问。但重要的是你要倾听客户的回复。

用户的体验 不能用单一的数字就概括了

这才是NPS的最大缺陷——它试图取得无法实现的目标。 这对我们的管理层很有吸引力,因为NPS有望解决一个无法简单解决的问题。

客户体验是我们客户与我们的产品,网站,员工和品牌之间所有互动的总和。 每个客户与产品、服务的互动过程都会有所不同。

NPS信徒想相信的并非他们想达成的目标。 NPS分数就像每日星座运势。 这不是科学,只是信仰。

作为UX专业人士,我们可能无法说服NPS信徒说,他们的占星术不是科学。 但是,我们可以躲开陷阱,采取措施,为企业带来更多的价值。

那么,你这篇文章推荐给朋友或同事的可能性有多大?

原文链接:https://blog.usejournal.com/net-promoter-score-considered-harmful-and-what-ux-professionals-can-do-about-it-fe7a132f4430

编译组出品。编辑:郝鹏程

神乎其神的指标“净推荐值(NPS)”,真能反映用户体验吗?

发表评论

电子邮件地址不会被公开。 必填项已用*标注