火鸟云控

数据乱弹|你是怎样被数据欺骗的

发表时间:2020-07-16 23:04
30s速通版:
指鹿为马的三种手段
1. 申报错误数据:假造符合业务逻辑的错误数据,达到数据虚高或偏低的目的;
2. 展现部分数据:管中窥豹,用部分数据展示漂亮的成果,使人忽略潜在的危险;
3. 零值取代空值:将数据中的无效值,转化为有效的0值,提高部分数据的比例;
4. 指鹿为马的核心在于似是而非,展示的数据与真实的数据相似,但却有本质的差别。

本文约3800字,阅读需14分钟

随着互联网信息技术的发展,大数据逐渐成为各大企业持续发力的课题。 许多人认为,所谓的大数据,要从消费者出发,让企业知道怎样去迎合消费者,从而创造价值。其实,对企业内部数据的研究,同样可以为企业开源节流,创造盈利,指导前进的方向。

当你面对某一个数字的时候,别人可能告诉你,你的企业今年的营业额是多少,盈利是多少,哪个部门的贡献更大,哪个员工表现更优秀。这些都可以从一两个数字直观地表现出来。你将知道,今年是否有优于以往的表现,在接下来的时间里,我们要往哪个业务领域发展,哪些员工值得培养。

但请注意,你可能正在被欺骗。更多的时候我们愿意相信,数字可以客观地描述事实。然而,描述数字的方式,却可能被操纵,你可能正在被误导到一个与事实截然相反的结论中。

在本文与接下来的文稿中,我们将简要介绍几种常见的操纵数据的手法。这些手法是一些常见的数据处理的手段,可以让我们的一些数据更便于展示,更“好看”,通过这些处理,你将有可能被展示的数据误导。

指鹿为马

所谓指鹿为马,指混淆概念,使用修饰过的数据来进行沟通和展示。此处举例三种手段:1. 申报错误数据;2. 展现部分数据;3. 零值替代空值。

申报错误数据

申报错误数据一般存在于业务线中。通过虚报,延迟同步等方式,人为造成底层数据缺失、错误,从而使某一时段的数据呈现虚高或偏低的形态。最近的例子就是网络哄传的某咖啡事件。某咖啡在发布的公告中,承认其虚假交易的事实。

该公司通过虚报的方式,将企业的营业额拉高,从而达成快速扩张,上市融资等一系列成就。

那位朋友发话了:某咖啡的虚假交易是用来骗投资方和外国股民的,讲好故事就行了。但到了我自己的公司,一个数字是什么样子,难道我还不了解吗?朋友,未必。对于一家企业而言,一两个数字无法实现全方位的评估,我们往往通过构建一整套数据指标的方式来综合评价其经营状态,而每个指标的计算方法都涉及更多层次的计算和海量的底层数据。任何一个微小“修正”,都有可能对整体的结果产生影响。

我们以某咖啡为例,在此用一个简单的数据模型来说明。

对于一个一般的门店而言,我们最直接的关注点往往是它是否盈利,而盈利的情况则由收入和成本共同决定,这两项数据又分别取决于多项数据的情况。此次曝光中,某咖啡公布的是交易额的虚报,我们从订单量和平均单价则可以看到更多的底层数据。

当我们将某咖啡的总营业额的情况区分到不同的营销区域甚至门店的时候就会发现,虚报的数据可能存在于不同门店的不同基础数据中。那么朋友,当你被告知某咖啡的总营业额虚高时,你能够找出哪家门店的哪些订单,是虚假的吗?

注:上述图解和说明,仅代表本文观点,并不代表涉及讨论主体的实际架构与经营情况。

当我们谈论错误数据时,我们潜意识里总认为这种虚假的数据是简单粗暴的,是肉眼可辨的。但是蓄意欺骗的虚假数据,往往是符合业务逻辑的。即使你非常了解一家企业的业务状态,明确的感到某个数据可能与印象中的状态有虚高或偏低的情况。但当你看到它一步一步被计算出来的时候,多数人会选择被说服。

当然我们在这里也并不奢望教会大家怎样去计算每一个数据。毕竟每一个数据都有其独特性,在判断是否符合实际情况的工作中需要大量的专业知识和丰富的经验。这里只是提出一种可能的手段,让各位用更加严肃的态度来审视身边的数据。至于打假,专业的事还是交给专业的人去做。

展现部分数据

展现部分数据的手段,一般用于汇报和业务讨论。对数据工作而言,最需要习惯的一件事情是,数据有好就会有坏。当一个业务条线或一家企业的某些数据比较好看的时候,就会有另外一些数据不太好看。甚至有些数据是联动的,例如某个企业的营业额月增长率持续达到20%以上时,其增长的稳定性评估,必然会较差。

然而人类趋利避害的本性使我们趋向看到更加“好看的数字”。因此,就会有些报告或汇报性文档中,仅展现部分数据,同时人为地删除或放弃展示“不好看的数字”,给观众一种“形势一片大好”的观感,在达到美化目的的同时,其数据也失去了客观性和真实性。

仍以上文提到的某咖啡为例。

我们假设上图为某家门店的数据结构。对于该门店的盈利情况而言,其成本数据中,多数指标为稳定数据,即每个月其成本波动情况不大。那能否盈利的重要指标就是订单量和每单的单价。但是了解该咖啡的观众都知道,该公司的最大噱头也是当前电商市场的最大噱头就是低价和返利。该咖啡的深度用户可以有多种渠道长期简单地获取各种面额的代金券,同时该咖啡的线上商城对其商品的标价也长期提供折扣。因此,每单的标定价格,完全不能代表其实际收入,并且同一商品在不同订单上的实际入账情况,也天差地别。

若在营业额或盈利情况的数据计算上,仅展示商品的标定价格,忽略其折扣情况,那么结果可想而知。

我们再来看另外一个例子:

在上图中展示了某企业营业额的近年走势,我们可以看到什么呢?从2015年到2020年,该公司的营业额稳定增长,其中A产品迅速攀升,逐渐占领市场。

接下来,我们加入B产品的营业情况:

我们可以看到,结论有了一些变化,在A产品攀升的同时,原本占据较大份额的B产品却在走下坡路,甚至有可能整个公司在市场上都正在受到打压。

这时,之前我那位爱问问题的朋友又要说了:我的公司每个产品在市场上什么情况,我难道还不清楚吗?好,那我们再来看看,这家公司的所有产品的销售情况:

现在呢?朋友,你还能在5个产品的历年经营情况里面,找出A产品和B产品的比较,以及两种产品的营业额之和之间的变化情况吗?

数据的魅力就在于此,我们可以在整体的数据中,找到需要关注的问题,并且聚焦在这个问题上进行深入的学习,发现有趣的事情。但同时,也要警惕,你所看到的数据,发现的问题,可能只是海量数据的非常小一部分。

管中窥豹,仅见一斑。我们的发现可能的确是事实真正的样子,但不完整的事实将会让你做出错误的决定,同样,不完整的数据也将会极大地影响个人的判断。

零值取代空值

在日常的数据处理中,我们经常会遇到一种情况,在某一个字段下,有些记录的数据是缺失的。在某些数据中,空值与零值,意义是一致的,为了处理数据方便,我们可以将空值转化为零值处理。但在另一些数据中,空值拥有其独特的意义,不能将其与零值等同。

例如,在某次消费者调查发放的问卷中,其中一题是:您每周购买某咖啡的次数是:A.0次;B.1-2次;C.3-5次;D.6次及以上。共收回有效问卷100份,其中A选项15份,B选项30份,C选项25份,D选项20份,该题共计有效答案90份,另有10份问卷该题未作答。

要想了解消费者的购买习惯,我们可能会讨论每个选项的占比,展示图表如下:

但我若为做高0次的比例,将空值记为0次处理,图形就会发生微秒的变化:

我们仅用两张图做对比,差别可能还不太明显,此时我们引入第三张饼图,在一段时间后,再次对消费者进行市场调研,此次收回100份有效问卷中,该题的答案分布为:0次:18份;1-2次:34份;3-5次:27份;6次及以上:21份。共计有效答案100份,全部问卷该题作答,其饼图形态为:

此时,两组前后对比就会有所差异:

在将空值记为零值的情况下,我们看到,低频次购买的比例降低,3-5次与6次以上的比例升高,说明消费者的购买习惯在向高频次偏移。

然而,真的如此吗?我们剔除空值,重新对比,则获得下图:

我们可以看到,实际的消费者购买习惯,在整体比例变化不大的情况下,0-2次的比例有小幅提升,而3次以上的比例则小幅下降,是在向低频次缓慢偏移的。

在两份图形中,我们通过对空值的处理,得到了完全相反的结论。

其实相比于零值,许多时候空值对于数据来讲意味着更大的价值。以上述问卷调查为例,在第一次问卷调查中,共计回收100份问卷,该题的有效回答份数为90份,问卷有效率为90%。在第二次问卷调查中,回收的100份问卷中,该题全部回答有效,有效率为100%。这本身已经说明某咖啡在消费者中的接受度有所提升。若将空值转化为零值,则有可能忽略此项重要数据。因此,我们在处理数据的过程中,既要考虑数据处理的简便美观,同时也应该保持严谨客观的态度,才能真正让数据发挥更大的价值。

时代变迁,日新月异,我们正在进入大数据时代。有人说,数据就是力量。什么是大数据?我们就是大数据。我们将各种各样的资产、信息,物化、抽象化、数据化,再尝试从数据的关系去解读其本源潜在的规律,这就是数据的力量。但这种力量应该成为帮助我们前行的助力,而非误导的手段。

本文简单介绍了数据处理方法的一小部分手段,猜想了可能被误导的个别情境。但更多的时候,我们还是希望,数据可以给您讲述一个美丽,真实,而客观的故事。

最后,上面提到那个没完没了抬杠的朋友,到底是不是我自己呢?

更多精彩:聚量云控



分享到:
联系微信:smg840412             联系QQ:1642423472           
在线客服
 
 
微信咨询
1642423472
财富热线