解读统计数字的行动清单
《统计数字会撒谎》读书笔记
Contents
- 检查样本是否有偏差
- 检查样本分布是否合理(包括是否采用分层随机抽样、每层内部的样本分布情况如何):例如是否刻意挑选容易与其他层区分开来的群体而忽略处在模糊地带的群体
- 检查被调查者是否是特殊群体(包括接受调查和拒绝调查群体是否有偏差、调查人员是否特意挑选被调查对象):例如调查人员是否会挑选回答意愿更强烈的群体
- 检查数据是否反映真实情况(包括调查人员是否影响被调查者的回答、调查问题是否会导致被调查者谎报):例如被调查者回答有关「性」的问题时是否隐瞒
- 检查样本是否足够大或者刻意挑选期望的数据:例如牙膏广告中的「效果提升 23%」,其数据来源可能是多组实验中数据最好看的那一组;
- 判断表述是否误导
- 检查平均数(均值、中位数和众数)是否合适:例如公司统计人均工资时,用均值作为平均数掩盖蕴含更多信息的中位数;
- 检查结果是否对极端数据敏感:例如某地区今年降雨量比去年增加了 20%,农业收成有望提高,事实上农业易受极端天气(例如暴雨和干旱)影响,降雨量这个指标意义不大
- 用另一种语言表述:例如西藏九年义务教育普及率为 75%,换一种说法是,西藏还有 25% 的人未享有九年义务教育
- 检查图形是否夸大(包括坐标轴的尺度和起始点、以地图上行政区面积大小偷换人口比例、图形比例是否与数值比例一致):例如某地区八月平均气温逐年升高,配以一张起始点为 35°,而实际上气温是稳定的
- 避免推理陷阱
- 避免被偷换概念(包括统计结果的不合理推演、认为扩大数据有效范围、用权威机构混淆权威资料):例如中国人均年收入为 8000 美元,不能推论出中国四口家庭年均收入为 3 万 2 千美元
- 区分相关性与因果性(包括相关性强的两者都是受第三因素影响的结果、样本数过少的机缘巧合、两因素的联动变化):例如富有的人持有更多的股票,持有更多股票的人也更富有,因果关系依具体情境而定;又如随着工业发展,癌症发病率提高了,其中的原因可能是寿命延长增加了每个个体患癌症的概率,也可能是癌症确诊记录更加详尽
- 避免不合理外推:过去数据只是表示过去的趋势,未来只有在相同条件下才会延续这一趋势,而环境条件会一直变化
- 检查结果是否有意义(包括是否考虑了误差、精度是否有意义、结果是否显著):例如两人 IQ 测试分别为 98 和 101,而测试的误差为 3,比较两个人的智商是没有意义的