用户名:  密码:   
网站首页即时通讯活动公告最新消息科技前沿学人动向两岸三地人在海外历届活动关于我们联系我们申请加入
栏目导航 — 美国华裔教授专家网两岸三地百家论坛
关键字  范围   
 
为什么统计数据有时会“撒谎”
为什么统计数据有时会“撒谎”
2017/9/16 13:44:56 | 浏览:1566 | 评论:0

收集统计数据是一项复杂而又精细的工作,每一步都有出错的可能。即使所有的细节都万无一失,最终得到的数据里也会隐藏大量的陷阱。如果盲目地对统计数据进行分析,有时会得出一些甚为荒谬的结论。

统计学家曾经调查过铀矿工人的寿命,其结果让人大跌眼镜:在铀矿工作的工人居然与普通人的寿命相当,有时甚至更长!难道统计结果表明在铀矿工作对身体无害甚至有益吗?当然不是!事实上,只有那些身强体壮的人才会去铀矿工作,他们的寿命本来就可能长一些;正是因为去了铀矿工作,才把他们的寿命拉低到了平均水平,造成了数据的伪独立性。这种现象常常被称为健康工人效应。

类似地,有数据表明打太极拳的人和不打太极拳的人平均寿命相当。事实上,打太极拳确实可以强身健体,延长寿命,但打太极拳的人往往体弱多病,这一事实也给统计数据带来了虚假的独立性。

有虚假的独立性数据,就有虚假的相关性数据。统计数据显示,去救火的消防员越多,火灾损失越大。初次听到这样的结论,想必大家的反应都一样:这怎么可能呢?仔细想想你就明白了:正是因为火灾灾情越严重,损失会越大,所以才会有更多消防员去救火。这里的因果关系弄颠倒了。数据只能显示两个事情有相关性,但并不能告诉你它们内部的逻辑关系。

为什么统计数据有时会“撒谎”

数据统计中的各种图示方法

事实上,两个在统计数据上呈现相关性的事件,甚至有可能根本就没有因果关系。统计数据表明,冰激凌销量增加,鲨鱼食人事件也会同时增加。但这并不意味着,把冰激凌销售点全部取缔了,就能减小人被鲨鱼吃掉的概率。真实的情况是,这两个变量同时增加只不过是因为夏天到了。又如,统计数据显示,篮球队的获胜率,竟然与队员的球袜长度成正比。难道把队员的球袜都换长一些,就能增加球队实力吗?显然不是。数据背后真正的因果关系是,球队的获胜概率和队员的球袜长度同时受第三个因素——队员身高——的影响,这导致了获胜概率与球袜长度之间表现出虚假的相关性。

类似的例子还有很多。如果观察大气层二氧化碳的含量变化和肥胖症人口的数量变化,会发现一个非常有趣的现象:在1950年左右,两者都出现了一次非常剧烈的增长。但科学研究并没有发现,二氧化碳含量的增加会导致人类出现过度肥胖的趋势。事实上,这个数据背后的真实原因是,20世纪50年代,汽车产业形成了一定的规模,尾气排放导致大气中的二氧化碳含量陡然增加;同时,人们也更多地用汽车代步,活动的时间越来越少,自然就越来越胖了。

可见,要想从统计数据中挖掘出正确的结论,并不是一件容易的事。如果只从表面上观察数据,往往会得到一些错误的信息。正如著名作家马克·吐温所言:“世上一共有三种谎言:谎言,糟糕的谎言,还有统计数据。”

 

统计数据会耍“障眼法“:为什么有时各个部分均占优而整体不占优

有时候,统计数据会出现一些极其反常的现象。让我们来看一看下面这个有趣的例子。假设科学家研发出了一种治疗某种疾病的新药。不过,实验结果表明,这种新药的效果并不比原来的药更好,如表所示:

为什么统计数据有时会“撒谎”

简单计算就能看出,新药只对40%的人有效,而原药则对50%的人有效。问题出在哪里呢?是否因为这种新药对某一类人有副作用?还是存在其他原因?于是研究人员把性别因素考虑进来,将男女分开来统计,如表所示:

为什么统计数据有时会“撒谎”

我们不妨实际计算一下:对于男性来说,新药对高达70%的人有效,而原药则只对60%的人有效;但对于女性来说,新药对30%的人有效,而原药则只对20%的人有效。矛盾的结果出现了:新药不但对男性更加有效,对女性也更加有效,但对整体人群则不及原药!1951年,英国统计学家辛普森首次发现了这种怪异的现象,因此这种现象就被叫作“辛普森悖论”。

辛普森悖论也叫辛普森效应,它其实不是一个悖论。它在分组样本数据大小差异较大、发生频率差异较大时容易出现这种现象。比如,在上面的例子中,参与新药试验的女性人数远大于男性人数,原药则相反,而且,药品对男性的有效率远大于对女性的有效率。

为什么统计数据有时会“撒谎”

饼图是展示统计结果的常用方式

在医药卫生领域的统计数据中,这样的现象时常会发生,如流行病学中的“混杂效应”实际上就是辛普森效应。类似的事情在人类社会其他领域中也有发生。美国劳工部曾发表过一份报告显示,于2009年爆发并影响之后多年的全球金融危机期间,美国总体失业率要低于20世纪80年代经济衰退期间的总体失业率。然而,分别统计大学毕业生、高中毕业生以及高中辍学生等各个群体的失业率数据后,会发现这些群体在全球金融危机期间的失业率,均高于20世纪80年代经济衰退期间。究其原因,是由于2009年以后美国每年大学毕业生人数占总人口的比例远高于20世纪80年代,而大学毕业生的失业率则远低于高中生或高中辍学生。

1973年,美国加利福尼亚大学伯克利分校曾因性别歧视被起诉,因为有统计数据显示,当年男性学生的录取率远远高于女性学生。然而,校方仔细检查了学校每个院系里的男女学生录取率,发现情况并不是那么回事。事实上,几乎所有院系的女性学生录取率都更高一些。最终,伯克利分校在这次诉讼中获胜。

 

 

相关栏目:『百家论坛
为什么时下中国很难出现真正的哲学家 2024-11-16 [62]
诺贝尔奖院士工作站介绍 2024-11-16 [48]
《乡下人的悲歌》读书笔记 2024-11-12 [143]
简单直接:特朗普当选,对我们影响最大的是这几点 2024-11-12 [163]
特朗普大获全胜,说明美国人对政治正确已经深恶痛绝 2024-11-12 [125]
也许特朗普并不可怕,可怕的是你只看到他们想让你看到的特朗普! 2024-11-12 [127]
特朗普胜选演讲里特别感谢的这位女性是谁? 2024-11-12 [119]
全世界都在蹲特朗普曝光萝莉岛大瓜 2024-11-12 [137]
任正非最新讲话:世界走向人工智能潮流是不可阻挡的! 2024-11-06 [276]
中国教育正走向恶性循环 2024-11-06 [315]
相关栏目更多文章
最新图文:
:学术出版巨头Elsevier 彻查433名审稿人“强迫引用”黑幕 :中国336个国家重点实验室布局 :中澳政府联合出手打击洗钱和逃税漏税 大量中国居民海外账户遭冻结 :摄影师苏唐诗与寂寞百年的故宫对话6年,3万张照片美伦美奂 :大数据分析图解:2019中国企业500强 张梦然:英国惠康桑格研究所:人体内的微生物与出生方式有关 :美众议院将调查华裔部长赵小兰“利用职权为家族谋利“ :UCLA CCS 2019 Fall Quarter Lecture Series Overview
更多最新图文
更多《即时通讯》>>
 
打印本文章
 
您的名字:
电子邮件:
留言内容:
注意: 留言内容不要超过4000字,否则会被截断。
未 审 核:  是
  
关于我们联系我们申请加入后台管理设为主页加入收藏
美国华裔教授专家网版权所有,谢绝拷贝。如欲选登或发表,请与美国华裔教授专家网联系。
Copyright © 2024 ScholarsUpdate.com. All Rights Reserved.