假如数据欺骗了你:产品经理如何识破数据谎言?

栏目: 数据库 · 发布时间: 7年前

内容简介:数据千万条,甄别第一条,数据不规范,老板两行泪。对产品经理而言,数据无疑是工作中需要常常借鉴的对象,毕竟这是个数据推动发展的时代。数据之所以重要,正是因为数据是记录客观事实的一种符号,因此在统计数据面前,许多人潜意识里的第一反应就是无条件信任它。

数据千万条,甄别第一条,数据不规范,老板两行泪。

假如数据欺骗了你:产品经理如何识破数据谎言?

对产品经理而言,数据无疑是工作中需要常常借鉴的对象,毕竟这是个数据推动发展的时代。数据之所以重要,正是因为数据是记录客观事实的一种符号,因此在统计数据面前,许多人潜意识里的第一反应就是无条件信任它。

但现实是,许多看似靠谱的数据,都是别有用心的机构利用了数据的客观性,为我们输出了一个与现实大相径庭的结论。 虽然数据本身不会说谎,但说谎者需要数据。

数据都说了哪些谎?

1. 样本偏差的欺骗性

(1)幸存者偏差

也叫“沉默的数据”。如果要说得更具体点,就是当你在分析某个事物的时候,可能会面对诸多的证据(样本),但是大多数人通常只注意到“显式”的样本和证据,而忽略了“隐式”的样本和证据,从而得出错误的认知、错误的结论。

下面举一个最著名的例子:二战期间,英国皇家空军计划在轰炸机上进行改造,以抵抗德军战斗机和陆基高射炮的攻击。

他们统计了联军返航的轰炸机受损情况,作战指挥官认为应该加强机翼的防护,因为分析表明,那里“密密麻麻都是弹孔,最容易被击中”。但是统计学家却有不同观点,他建议加强座舱与机尾部位的装甲,因为那儿发现的弹孔最少,说明 大多数被击中飞行员座舱和尾部发动机的飞机,根本没法返航就坠毁了

上面的例子不是数据说谎,而是你没注意到沉默的数据(缺少了的样本)。当数据样本仅采自“幸存者”、信息不够全面的时候,得出来的结论有可能才是最离谱的, 需要分析者有足够广的视角和逻辑,才能从数据里挖掘出隐性的真相。

假如数据欺骗了你:产品经理如何识破数据谎言?

(2)不充分的样本数据

  • “用户反映,使用A品牌牙膏 将使蛀牙减少23%。
  • “B品牌洗衣粉能有效 减少90%种污渍残留。

你也许常常能从广告中的某些权威机构、研究人员口中得知这些结论,但如果你仔细观看,或许能看到这样一行小字: 此次实验由**(假设30)名用户组成 ,甚至有些广告还故意抹去这些信息。这些信息意味着,只要你找来多组测试用户,每组30人,持续使用一段时间的该品牌产品,就会得出以下的任意一种结果(以牙膏为例):

  • 蛀牙明显增多
  • 蛀牙明显减少
  • 蛀牙数量无明显变化

事实上,不管用户使用的是哪种牙膏,由于机遇作用,第二种结果是迟早会被试验出来的。由于试验人数只有30人(样本总数不大),所以得到的结论极有可能是牙膏效果极佳(蛀牙减少23%),商家就是利用这样不充分的样本数据,来达到预期的广告效果。 现实中,也要警惕在信息不对称的情况下,脱离总量谈现象的流氓思维。

(3)样本本身存在偏差

假设调研一座城市的人均消费水平。如果是在飞机场调研,或许会得出“城市发达、人民收入高”等结论,但如果到贫民窟里调查,结论就会截然相反,因为城市里真正贫穷的人很少会在机场出没。

企业也常常利用这种选择性的误差来为某个现象寻求合理性,比如智能手机领域喜欢用数据“打脸”友商,但是由于大家采用的统计口径不同,所以常常在同一领域遇到数据打架的情况。

还有一种情况就是样本不够真实,比如全社会都在传播“吃饭不光盘是种可耻的行为”这种理念后,这时你再去调研这个话题,绝大多数受访人都会表示自己是个“净坛使者”,因为几乎所有调查都无法避免人们往自己脸上贴金,这种情况下除非采用匿名调查或者直接调查饭后餐桌上的盘子,否则很难获取到完全真实的数据。

这些案例说明即便你找不到任何数据遭到破坏的证据,也很难避免样本本身在说谎,因此 只要是样本有存在变量误差的可能,就要保留怀疑的态度。

2. 用平均数掩盖差距

假如把比尔盖茨移民到某个非洲落后国家,该国的人均GDP相应地也会有很大幅度的上涨。但这有意义吗?该国贫民窟里的穷人依然吃不上面包。

类似的,即使某地区人均收入有了提升,但依然存在一种可能性,就是富人财富量的增加远远快于穷人财富量的增加,造成的结果是 “数据显示人均收入上升,但贫富差距在拉大”

比如美国前总统奥巴马在谋求第二任期的竞选活动中提到,“美国经济自09年以来增长了13%”。但他没有说的是,其实美国人只有最富有的那1%的人收入增长了,剩下的99%的人收入反而比以前有轻微的下降。奥巴马虽然赢得了连任,但“整体经济复苏”与“大多数人的可支配收入没有增长”的矛盾却依然无解。

通常情况下,你并不会被告知数据包含了多少观测值, 当均值和中位数相差甚远的时候,你就需要注意那些没有标明类型的平均数(均值、中位数、众数),否则你对它的认知依然停留在表面。

3. 数据的视觉欺骗性

假如数据欺骗了你:产品经理如何识破数据谎言?

上图是2018年我国各省GDP的统计图像,可以看到,同样的数据在不同的坐标轴里呈现出来的状态截然不同,左图数据取等量递增绘图,右图数据取十进制绘图,呈现出来的视觉效果有相当大的不同,大多数人的第一直觉是:

  • 左图直观表达各省GDP差距巨大
  • 右图直观表达各省GDP差距不大

假如数据欺骗了你:产品经理如何识破数据谎言?

上图是某公司四年间的收入曲线,从视觉上很容易得出以下结论:

  • 左图直观表达公司四年间收入稍有波动,但相对平缓;
  • 右图直观表达公司四年间收入波动巨大,目前遭遇停滞下滑的危机。

也许大家都发现了,波动是可以被人为操纵的,但数据却是真实的。PPT领域有一句很经典的话:能用图,不用表,能用表,不用字。图表诚然能帮我们更直观的了解事实,但许多报告和演讲就是有心利用数据的视觉误差,误导观众的判断,分辨能力弱的读者就容易被牵着鼻子走。

如果你细心留意的话,就能发现很多产品的发布会和权威机构调查对这招都是屡试不爽的,虽然数据本身没有问题,但这样的呈现方式仅仅是为了好看。现在是信息化时代,一段信息里有价值的文字往往不如一张靓丽的图表更抓人眼球,加强对数据可视化的信息分辨能力会少走很多弯路。

4. 数据不能替你思考

统计学数据表明: 在夏天,“冰激凌的销量”和“溺水死亡人数”成正比,二者的趋势高度吻合。

看到这条信息你是选择相信还是陷入沉思?如果我们通过这条数据强行把两者联系起来分析的话,推导出来的结论很有可能是:

  1. 吃冰激凌会导致人们游泳时更容易溺水
  2. 游泳溺水时人们喜欢用冰激凌来抢救

很诧异对吧,但如果你跳脱出数据分析的思维,以常识去推理,你就知道两者根本没有联系,唯一的契合点在于 “夏天天气热” ,冰激凌的销量会因此上升,下水游泳的人也会因此增多,自然会有更多溺水事件发生。

数据是客观的、理智的,但人是经验主义者,更善于用逻辑去认识和判断事物,数据的绝对客观性,往往会把我们被拖入单维思考的沼泽里。

就像电影《流浪地球》的片段:以色列科学家提出点燃木星的想法,被空间站的人工智能莫斯否决。道理很简单,莫斯作为人工智能,是绝对理性的化身,它经过周密的科学计算后得出的结论表明:这个方案成功的概率为零,但它忽略了人类是具有感情的生物(或许是故意忽略),冲动和情感能突破理性的底线,做出人工智能不能理解的行为。

简而言之,用空间站撞击木星这种看上去不合理的感性行为,也许恰恰不在莫斯的数据分析范围内。

电影虽然是电影,但它能映射现实。许多在人类看来再正常不过的逻辑思维,却是冰冷傲慢的数据分析的盲区,这本质其实是单维思考和多维思考、客观事实和主观逻辑的冲突。 数据可以辅助你思考,但它不能代替你思考,千万不要患上唯数据论的怪病, 在认识事物的时候一定要问问自己:该相信逻辑还是该相信数据?

如何避免数据说谎

通过上面的案例我们可以知道,数据是客观产生的,它只能反映问题,不会主动撒谎,真正说谎的凶手有三个“人”:

  1. 记录数据的人(数据的真实性)
  2. 拿数据给你看的人(利用数据的目的)
  3. 自我的认知错误(解读出现偏差)

1. 数据的真实性

解决的方法,第一件要预防数据生病,就是辨别数据可信度(真实性)。简单来说,通常要遵循两个原则: 越接近第一手的数据越真实,采集的样本越全面越可信。

例如互联网产品经理常常更关心数据分析的结论,而忽视了原始数据的来源和真实性,源头如果出现问题,一切的分析都是徒劳的。如果你更关心渠道数据的精准度,可以使用openinstall进行渠道来源归因统计和活动推广效果监测,openinstall在渠道数据精准度上还是比较专业的。

2. 利用数据的目的

我们要明白统计数据的真实价值:数据是用来揭示事物规律,进而解决问题、创造未来的。如果结论本身已经客观存在,你用再多的数据也无法让结论变得更加正确,如果有人想要找到某个证据(数据)来论证观点,方法多的是,早晚能够找到。

让数据来回答问题,然后从这些数据中创造更多的可能,这才是数据存在的现实意义,也是用来辨别哪些人在利用数据说谎的方法。

3. 解读出现偏差

要善用常识性的思维和多个角度去看待客观事物的发展,既认识到数据和统计学的力量,也要了解它的局限性。当然,这也需要我们有基础的数理科统计知识储备。

数据和模型只是人们用来总结改进的方法,实践才是真理,如果想要更深层次的解读数据背后的意义,就要自己多去挖掘和实践。

总结

真实深度的数据在工作中是非常有参考价值的,尤其能帮助我们建立分析框架,弥补思维漏洞。要知道,数据并不能代替分析人员做决定,获取真实数据、善于运用数据、识破数据骗局,是需要长期培养和掌握的技能。

本文由 @大城小事 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议


以上所述就是小编给大家介绍的《假如数据欺骗了你:产品经理如何识破数据谎言?》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Programming Concurrency on the JVM

Programming Concurrency on the JVM

Venkat Subramaniam / The Pragmatic Bookshelf / 2011-6-1 / USD 35.00

Concurrency on the Java platform has evolved, from the synchronization model of JDK to software transactional memory (STM) and actor-based concurrency. This book is the first to show you all these con......一起来看看 《Programming Concurrency on the JVM》 这本书的介绍吧!

随机密码生成器
随机密码生成器

多种字符组合密码

SHA 加密
SHA 加密

SHA 加密工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具