反精益创业第三章:基于公开资料的商业情报分析(5):以移动医疗app为例详解综合情报分析方法 | 36氪

你见或者不见,她都在那里,不悲不喜。——仓央嘉措

引言:

这一章是临时插播的,因为有非常多的小伙伴留言说,对我在第二篇文章中写的关于“产品会说话”那里非常感兴趣。但是我写的太简单而且比较短,希望能以一个具体的产品为例,实盘操作一下,如何基于公开资料进行商业情报收集与分析。那么就以Dr.2最熟悉的移动医疗app为例吧,而这对其它创业项目也可能有借鉴作用。

当我们决定着手去调研一个移动医疗项目的时候,首先可以用综合搜索引擎、微博微信、实地走访市场、拜访用户或者与客服进行沟通获取情报,然后再对这个app的基本功能,流畅情况和崩溃退出等进行反复测试。这些工作如何完成不再赘述,但是很关键,因为需要建立基础数据库,以便和我们测试的数据不停地进行交互印证。

Ok,现在开始进行数据测试。

以移动医疗app项目中最常见的医患沟通平台为例吧(大约占项目数的80%以上),其实平台里天然就会包含“医生与患者”这两大类非常重要的数据,而“你见或者不见,数据都在那里,不悲不喜”,就看你如何去发现与分析了。首先我们看如何分析医生数据。

医生数据情报:

很多平台都会宣称我有多少万的医生用户入驻,那么怎么核实呢?很简单,我们可以借鉴一下《射雕英雄传》里面靖哥哥是怎样习武的呢?那就是勤能补拙,苦干到底!你想啊,这些平台将医生置入,一定是希望患者可以找到是吧?而且他们通常已经将医生按照科室进行了分类列表,比如说”某雨”、“某某问医生”或“某大夫”等,那就可以一个一个手工拉取进行计数!没有任何投机取巧,完全是一种“2B青年”式的行为。说说一句话,干干工作量巨大!通常一个大平台,需要6个人花两周的时间进行手工计数与复核,就是说 Dr.2 花了相当于“数万元的人工”,只为了得到一个数字,而投资机构里这些高大上的聪明人是不可能去干的,当然他们可以在尽职调查的时候要求查看企业的后台(不过数据也可以造假),但是我只能采用笨办法了,别无良策,而这只是开始而已。

因为好多平台上的医生是虚假的,只是贴的其它平台上抄来的信息,那么我们接着往下做。打开这个医生的主页,其上会有注明,开通网络咨询或者开通了电话咨询等等,有些都没有开通。开通网络咨询的,你就可以不断进行提问以验证其是否真实存在于该平台。而有些开通了电话咨询,你就可以真实打电话验证,有时你还会发现打过去是某总机的号码,或者是一个导医的号码,不停地给你推荐这个推荐那个。于是这里可以进行抽样调查,开始核实,大约调查每100名医生,有多少信息是真实有效的,取多组测试结果最后取算术平均百分比,随便举一个例子比如说 55% 是真实的,那么再乘上我们穷举法拉出来的医生总数,就是该平台大致真实的医生数量!故事完了吗?No,just begin!

我们要测试这个平台上到底有多少真实有效的“活跃”医生,在这里我们就讲一个方法。如果发现这个医生页面上标有多少次提问和回答的具体数据,比如说 222 次什么的,Dr.2 通常选择忽略,因为这不少是造假出来的,可以由系统随机生成,看你后台程序怎么编了。但是,由于网站会吸引用户点评或者提问,所以他们通常会把问题与答案显示在页面上,那么这里信息很多,我们采用自上而下全面浏览的方式,计算在每100个问题中有多少人重复回答,在实战中通常我会把回答3-4次的医生定义为活跃用户。那么多次采样之后,再次取加权平均,看看有多少百分比的医生是活跃用户,有多少医生从来没有回答过问题,那么上文我们测过的真实医生数量X活跃系数,就是活跃医生用户的数据。

But,故事并没有完,我们正向得到了一个活跃医生的数据,还要用下文提到的逆向压力测试法来进行验证,如果交互验证在合理范围之内,通常我们可以最后得出相对靠谱的结论,不过还是要带上统计学上可信区间的假设。

患者信息情报:

通常患者信息和数量,我们是无法在这些医患平台上收集的,而且就算可以这么做,由于患者数量要比医生用户大几个数量级,如果Dr.2真的手工去测量,那就绝对变成重度脑残的Dr.250了!我们无能为力了吗?No!今天我就来系统性地阐述一下“压力测试法”,该方法可以真实估算平台上的活跃医生数量,那么我们为什么要测此数据呢?因为我们需要依靠活跃医生数量来推测患者流量。

大家想啊,患者来这个平台是干嘛的呢?当然是咨询医生的,所以我们可以根据活跃医生的数据,计算出这个平台在某个时间内所能接待的最大患者数量,用这种方法进行反向推定上限。换句话说,根据平台上的真实活跃的医生数量,那每天有多少患者流量的上限肯定是能算出来的,然后可以再乘以一个系数大概估算真实患者流量,所以这是使用间接法来进行测量的。

压力测试法:

首先N个手机用不同账号同时向该平台提问同一个问题,我们的目的是:

  1. 测试在同一平台上,在同一时间,在同一个科室内,根据同一问题,获得答复之间的时间差,以及参与回复的医生的数量,并且查看该医生是否有循环回答的情况。通过在同一科室内的反复测试就可以知道在这一时间段,平台上这一科室内真实有效的活跃医生的数量。在测试某雨和某大夫平台时,我们同时用六个手机。

  2. 随后,我们同步测试这一平台上所有的十几个科室,取加权平均,就可以进一步推测这个平台上这一时间内总活跃(所有科室)的医生的数量。

  3. 然后,取多天多点时间,就可以大致推算出这个平台目前为止总活跃用户的数量和活跃程度。注意事项:我们在测试的时候,发现有些医生活跃的时间在上午,有些在下午,但是大多数的医生活跃时间都在中午12点~1点多,以及晚上9点之后。因此这两个时间段是极大值有效时间段。根据统计学方法,我们先做散点构图,得出医生活跃数量与时间关系的分布图,然后我们进行分组和配对,一般选择极度活跃时间来测试,并以上限进行推定。

当然等到了我们要进行测试计量的时间段之内,我们进行测试的不同分组内还是会有一些活跃的差别,比如周末、节假日、工作日等因素都会导致结果不同。因此在做分组统计之前,我们要做均衡性检验,查看分组检验和前后时间段中的样本是否足够,是否有代表性等。这样多点取样,多重因素回归,以避免单一分析出现较大误差。

还有,我们可从之前的测试中推断出某个科室的某个医生是非常活跃用户,然后我们为了反过来验证其是否是重度活跃用户,会反复进行比对,这是一个类似数学上循环代入、验证测试的方法,然后结果还要再取多次加权平均,以修正我们之前的数据预测模型。各位同学,你们被绕晕了吗?没办法,统计学就是这个德性,想要不被人质疑,就得多下功夫,多采集数据。

总结:

在对问诊平台做测试的时候,平台越大,我们的工作量就越大,耗费时间就越多。由此可以看出,做一个规范压力测试消耗的人力是非常巨大的,而这还只是整个产品测试的一部分而已。同时为了验证收费平台效果,Dr.2团队还要注册了很多账号,花不少钱去真实测试。

而易观,艾瑞,IMS他们通常是根据总流量和打开行为,去进行数据推断的,就像有机构会和我说,我们公司有数据平台能够后台监测实时数据。不过他们无法做到去研究如此垂直细分的领域,而且各种流量混杂在一起,其实无法区分。同时,他们也很难区分特定的人为操纵或者水军数据,尤其在一些企业准备融资的时候,他们会花不少钱,真的请人去手工下载、注册和互动,造成注册用户数、活跃度和流量劲升的表象,这个在后台确实是真实流量,你也识别不出来。怎么办呢?

真的想干也很简单,市场实地调研,派团队人员一个一个医生或者用户拜访,询问真实使用情况,拍照截图,有图有真相,随后反复抽样调查后进行整体估算,反向验证。而这仍然还是郭靖学武功的方法,没有任何“耍小聪明”,就是用的“笨办法”!

其实我想说的是,你所希望知道的很多信息或者情报,根本就一直在那里呆着,从来就没有离开,不需要什么借口,方法都在那里,就看你到底是“叶公好龙”呢?还是真的想去拿!

作者简介:本文作者Dr.2 是 36氪特约作者(@医库软件CEO,希望交流的朋友,可加微信号1340603421),医学硕士,现任上海博光生物科技有限公司 CEO和 MediCool 医库软件公司CEO。

这里查看《反精益创业》系列文章

[36氪原创文章,作者: Dr 2]

反精益创业第三章:基于公开资料的商业情报分析(5):以移动医疗app为例详解综合情报分析方法 | 36氪

发表评论

电子邮件地址不会被公开。 必填项已用*标注