数据分析也能造假!你得小心这些不为人知的坑

数据分析看似科学理性,但是只要是人参与的工作,就没有不能造假的,尤其是类似数据分析这种工作,很容易产生诡辩论,我们需要实时擦亮眼睛!

作为一个小头目,经常会读到来自各种团队的数据分析报告,看似基于理性和事实的雄辩,然而有可能是有意或无意的诡辩。搞得我经常像傻白甜的美少女面对追求的少男一样,面对这些严谨的数据分析也不得不多长几个心眼。

1、可视化的误导

一般来说,画出图表就容易让人肃然起敬,至少架势是足的,然而其中却容易出现诡计。

下图的作者为了表达中国城镇化率的增加以及家庭小型化趋势对房价的支撑作用,摆出了两个柱状图,然而为了表达这两个指标的强烈趋势,Y轴都不是从0开始,于是在视觉上更容易让人有冲击力,然而却含有误导性。(不过被误导也就罢了,一二线这个趋势,早几年买房也不是坏事儿)

数据分析也能造假!你得小心这些不为人知的坑

 

下图的作者为了表达软件开发类不等级别之间的工资巨大差异,居然把最低值、平均值和最高值叠加在一起进行呈现。效果是出来了,但逻辑和节操却大珠小珠落玉盘。

数据分析也能造假!你得小心这些不为人知的坑

 

2、使用孤证或者不靠谱的绝对值

“林子大了什么鸟都有”,这句俗语特别适合于使用孤证或者不靠谱绝对值来证明自己价值的数据分析,这是大公司里经常出现的一些场景,因为大公司产品经理偏爱依赖巨大流量来尝试一些新功能。

比如最近某产品推出类社区的产品功能,大家都质疑其与主方向毫无关系。产品经理立即跳出来反驳,使用该功能的n个用户已经找到了工作(找工作是该产品的核心功能之一)。然而每天上千万用户在产品里晃来晃去,做出啥事儿都不稀奇,举出孤证有意思吗?这时候想起知乎名言:脱离剂量,谈论食物毒性,都是耍流氓。

所以为了印象深刻,参考“林子大了什么鸟都有”,这句俗语可以考虑改成“数字大了什么鸟都有”。

3、推理逻辑混乱

许多数据分析虽然带有翔实的数据,但是逻辑推理极其混乱。

前段时间遇到某产品在一级入口上线新功能X,然而却有可能和位于二级入口的原有功能Y冲突,X抢夺了使用Y的用户。

如同大家都了解的,大公司里面做产品,经常发生的事情就是左兜掏右兜,把用户像赶鸭子一样赶来赶去;不过总有一个兜的人因为数据大增要得到嘉奖。这里面最直观的例子就是:不少公司的小程序用户大增而受表扬,不过主App的数据跌了。

当挑战这个产品经理的时候,他经过一天的数据分析后得意宣称:担心是多余的,因为数据显示,使用X功能的用户有60%使用了Y功能。

画外音:那么使用X而不用Y的40%用户在干嘛呢?算不算Y功能的流失?

4、扶不上墙的小规模测试

产品经理为了工作的严谨性,经常利用小规模测试甚至是AB测试来观察新功能。然而一个诡异的现象却是,小规模测试效果不错的功能,全量之后却差强人意。这往往可能是因为取样偏差造成的,因为求胜心切,产品经理在取样时很容易有意或无意得形成取样偏差。这里面常见的两个偏差是幸存者偏差和辛普森偏差。

幸存者偏差。前一段我们公司搞用户开放日,与应邀前来的用户做Focus Group(用户焦点访谈)。结果在访谈中用户对我们产品简直是满意无比,大大出乎我们意料。除去用户保持绅士风或淑女风不敢当面怼我们之外,更主要的原因是邀约是通过我们App上面的推广,来的用户都不是被我们伤碎了心的人,所以好感爆棚。如果基于这些用户去做新功能的小规模测试,一定会出现偏差。

辛普森偏差。下图是从网上摘取的一个关于肾结石治疗方案的AB测试。单个病例看,A方案都优于B方案;然而,总体看,结论反转。这么诧异的结论主要是来源于样本的不同:大小结石病例在A和B中的构成比例相差较大,从而形成两个完全不同的样本,从而造成这样的结果反转。

数据分析也能造假!你得小心这些不为人知的坑

 

5、乱配因果关系

据说世界上比暧昧关系更难证明的关系是因果关系,也比暧昧关系更加容易搞错而陷入泥潭。这里举自己犯过的错误再恰当不过了。

在面对冷门问答(百度指数诗歌这个词为什么在每年十一月二十多号的时候出现急速增加的趋势,这几天有什么重要的日子嘛? )时,自鸣得意得使用百度指数相关功能,发现“诗歌”和“感恩节”之前的强相关性,于是又找到各种理由来相信他们之间的因果关系。

数据分析也能造假!你得小心这些不为人知的坑

 

虽然总觉得哪里有点不对,为了骗赞还是忍不住发了。结果被人打脸,更为可能的因果关系是:被人教版语文课本折磨的六年级小学生,赶上综合性学习活动“轻叩诗歌的大门”,课本的进度正在这个时间点左右,于是大量小学生搜索“诗歌”来完成作业。

数据分析也能造假!你得小心这些不为人知的坑

 

这样错配因果关系的案例在生活中不少,大家可以留意收集。不过有个很有趣的国外网站(15 Insane Things That Correlate With Each Other)已经这么做来搞笑了,专门列出来看似逻辑相关但是其实因果关系错乱的例子。发出来与大家共享,以便行文自嘲。

(1)尼古拉斯凯奇在电影中的出镜和淹死在游泳池里的人数,高度相关。

数据分析也能造假!你得小心这些不为人知的坑

 

(2)被床单缠死的人数和人均奶酪消耗量,高度相关。

数据分析也能造假!你得小心这些不为人知的坑

 

(3)美国在科技及空间领域的投入和绞死及各种窒息的花样作死的人数,高度相关。

数据分析也能造假!你得小心这些不为人知的坑

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26315.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据挖掘实战】——中医证型的关联规则挖掘(Apriori算法)

🤵‍♂️ 个人主页:Lingxw_w的个人主页 ✍🏻作者简介:计算机科学与技术研究生在读 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 &#x1f4a…

数据挖掘--(实验二)关联规则实验

实验一 有趣的频繁项集 案例简介: 有时我们并不想寻找所有频繁项集,而只对包含某个特定元素项 的项集感兴趣。我们会寻找毒蘑菇中的一些公共特征,利用这些特征 就能避免吃到那些有毒的蘑菇。UCI 的机器学习数据集合中有一个关于肋形蘑菇的 23 种特征的数据集,每一…

数据挖掘--糖尿病遗传风险检测

文章目录 赛事背景数据特征介绍数据处理导入数据并查看分析数据数据清洗特征工程 构建模型建立训练数据集和测试数据集构建模型 赛事背景 截至2022年,中国糖尿病患者近1.3亿。中国糖尿病患病原因受生活方式、老龄化、城市化、家族遗传等多种因素影响。同时&#xff…

【数据分析】业务分析之ABtest

A/B测试 AB测试是为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本&a…

生物信息学竞赛:糖尿病数据挖掘

糖尿病数据挖掘 一理:机器学习量化分析糖尿病致病因子下载:临床数据线性回归预测糖尿病LightGBM 预测糖尿病糖尿病因子分析变量相关性分析 一文:当前科学理解慢病之王的解决方案是什么怎么治疗怎么预防 一理:机器学习量化分析糖尿…

VS Code插件之Debugger for Chrome

号称2018最火的编辑器,不用用怎么行? 不多说直接开始踩坑之路。 要在vs中启动chrome控制台怎么办?vscode并没有集成环境,这里我们需要借助一个插件Debugger for Chrome。 选择左边安装包选项,点击商店搜索Debugger for…

Vscode对C/C++可视化的代码跟踪调试

文章目录 可视化的代码跟踪调试1、安装Visual Studio Code2、用vscode编译调试C\C 总结 可视化的代码跟踪调试 ubantu18.04的环境下,在命令行工具gdb调试基础上,利用可视化调试前端软件Visual Studio Code,(后端依然依赖gcc、gdb…

VS Code真机测试步骤

VS Code真机测试步骤 前提:你的电脑跟你的手机是在同一个网络环境下。电脑连手机热点; 1. 在扩展里搜索live server,下载安装; 2. 打开cmd 命令窗口(快捷键是winr); 输入…

VS Code调试C代码

1、前言 首先说明的是vscode是代码编辑器,并不是编译器,它本身并不能编译C语言。 在这里我们使用的是MinGW-w64作为C语言的编译器。MinGW-w64的前身是MinGW的全称是:Minimalist GNU on Windows。它实际上是将经典的开源 C语言 编译器 GCC 移…

VScode的代码截图插件CodeSnap

CodeSnap : 在 VS Code 中为您的代码截取漂亮的屏幕截图! 插件名:CodeSnap官方地址:CodeSnap - Visual Studio Marketplace特征: 快速保存代码的屏幕截图将屏幕截图复制到剪贴板显示行号许多其他配置选项用法:选中需要…

Vscode——调试数据可视化插件debug-visualizer

debug-visualizer是一款极其优秀的调试数据可视化插件 安装方法 第一步:vscode插件库安装 debug-visualizer第二步:环境内输入 pip install vscodedebugvisualizer 使用方法 启动调试Ctrl Shift P 打开命令面板,输入 Debug Visualizer: …

VS Code 最好的 Git 可视化插件

👇👇关注后回复 “进群” ,拉你进程序员交流群👇👇 作者丨小集 来源丨小集(ID:zsxjtip) Visual Studio Code 有几组 git 命令来为您的代码存储库执行和执行多项任务。但是&#xff0…

如何使用VScode软件测试接口

我们知道,Visual Studio Code(简称VScode)软件一般用于编写前端代码,但其实,它也可以很方便的用于接口测试,达到和postMan一样的效果。 怎么实现呢? 步骤如下: 1.安装 REST Clien…

视频特效软件有哪些?这些软件值得一试

大家平常在制作视频时,经常需要将多个视频拼接,但是如果两个视频中间没有什么转场过渡的话,会显得很单调。我们可以增加一些转场、音乐、特效,这样整支视频看起来效果会好很多。讲到视频特效,可能有些小伙伴会觉得它很…

python :超级大乐透

体育彩票 超级大乐透 dlt.py # codingutf-8 import randomdef xuanhao(total, count):element [x1 for x in range(total)]result []for i in range(count):res element[random.randint(0, len(element)-1)]element.remove(res)result.append(res)return result# 超级大乐透…

发卡网源码

简介:发卡网带代理功能,安装简单。 网盘地址:https://pan.baidu.com/s/1E3AtqCmBZPjXgaiUEXrM6Q 提取码:rsu4 展示:

最新鲸发卡企业发卡网系统源码+免授权

正文: 心心念念的鲸发卡来啦,企业发卡源码,鲸发卡。目前全网最稳定的发卡系统之一。 在运营版本,既然做就要把他当作一项事业来做。 程序开源无加密,完整运营级程序,非市面上垃圾程序BUG一堆。 此程序经过市场验证…

功能强大的发卡网源码+支付接口超多

正文: 有二十三个支付接口,三套前台模板。 由于还得更新其他源码,就填充了一个商品,UI看起来不错,脑补了下, 填充完商品后,应该会更好看。 程序: wwbwf.lanzouf.com/iigbh09ygu6b 图片:

【.NET AI Books 前言】Azure OpenAI Service 入门

本书是为 .NET 开发者而写的,让 .NET 开发者能快速掌握 Azure OpenAI Service 的使用技巧。 ChatGPT 的到来意味着我们已经置身于 AI 引起的全新变革中,作为开发者你可能将面临几种改变: GPT 模型到来后,如何去架构好企业解决方案…

github基本操作

目标 把本地的一个项目放到github上,方便浏览和管理 步骤 要将本地代码推送到 GitHub 上,您需要执行以下步骤: 1. 在 GitHub 上创建一个新的仓库。 2. 在本地计算机上使用 Git 命令行工具初始化一个新的 Git 仓库。 3. 将本地代码添加到 …