读书:统计数据会说谎 – 2023.8.19

随便写写一些读的乱七八糟的书的东西

  1. 样本来源和抽样方法极其重要
  2. 民意调查基本都会有偏差,而且很多时候还会按照想要的结果而故意设计的偏差(这里又想到了通货膨胀预期理论)
  3. 其实均值、中位数和众数都可被称为平均数
  4. 未加限定的平均数其实是毫无意义的 - 多留意包含平均数的报告,也许别有用心
  5. 越是自然的数据(如身高)越接近于正态分布,则三种平均数都会跟接近,很难操控。与生产资料相关的显然不是正太分布
  6. 使用规模较小的实验小组的关键意义在于:如果实验组的规模过大,那么碰巧之下产生领导希望的结果的概率就不会很高
  7. 如果在谈论某个饱含情绪信息的问题时,不尽快表明自己的立场是非常危险的(女权?性?)
  8. 美国四分之三以上的农场都通了电:这句话里真正耍的花招是在“通了”这个词上,这样电力公司就可以怎么好听怎么说,通并不等于有电,而仅仅意味着电缆经过了农场,或离农场不到10英里
  9. 不说具体数字只说排名的结果是不可信的
  10. 小心y轴不从0开始的图!别人还可以找借口说是为了节省空间!
  11. 以前有个社会实验表明,无论在报纸上发布什么不可思议的假消息(比如地球是方的),总会有大约五分之一的人会相信(起码在问卷中会相信),这告诉我们用精心修饰过的图标来操纵舆论情绪是完全可行的(政府支出剧增!)
  12. y轴看清楚是均匀分布还是指数分布!
  13. 小心图像!长宽各是两倍,给人的感觉却是8倍(三维)!

  1. 当数据将多个事情做比较的时候,要小心这些数据看似相关可能实则无关(就算相关也不一定是因果)

  2. 调查问卷的设计中,添加一个问题可能会影响大家的整体回答情况,比如,在第一个问题就问,你是否歧视黑人,然后后面的问题主要问你是否认为黑人的就业公平度低于白人,这个时候得到两者工作机会平等的概率就会更大了,因为填写问卷的人会有心理暗示

  3. 当一个话语说,能多做30%的工作时,一定要搞清楚是比谁能多做30%!

  4. 通常描述数据有很多种方法。比如,在描述完全相同的事情时,可以将其说成1%的销售利润率,或是15%的投资收益率,或是1000万美元的利润,或是利润增长了40%(与1935—1939年的平均水平相比),或者是相比去年下跌了60%

  5. 两张图前后比较的时候,应该只关注于想要得出结论的对象,然后将其他的干扰项全部排除(如用了洗发水和没用洗发水时女性头发飘柔的照片 - 要排除打光等因素)

  6. 关于百分比:任何根据小规模样本得出的百分数都具有误导性,与其这样还不如直接给出原有数据来得可靠。如果将这个百分数精确到小数,就不是愚蠢而是欺骗了

  7. “现在就购买圣诞礼物可少花100%的钱”,这句话其实可以成立,因为如果现在买礼物是半价的话,那相比于圣诞节附近买礼物,确实能省100%。同样的套路也可以说:下降幅度从14%到220%不等,如果觉得超过100%比较容易有嫌疑,不如就找个0-70之间的数

    这个计算很容易,假设原价为1,真正的discount是d,然后虚假的discount是k,那么(1-d) * k + (1-d) = 1,所以d = k / (1+k)。所以如果你想说降价了220%,带入k,则真实的discount是:68.75%

  8. 百分比绝大多数情况下不能相加!如果出版一本书的每项成本都增加约10%,那么,总成本也应当是增加了10%,而不是各个百分比进行相加!

  9. 绝大部分中国的公司在招聘的时候,宣传上会说平均月薪是多少多少,这个其实百分之百是虚假的,因为这里是考虑了加班费的(当然,加班能给加班费在中国其实已经不常见了哈哈哈)

  10. 在员工工资相关话题的统计数据中,一定要多考虑考虑兼职或实习的情况

  11. 关于物品价格的普遍操纵手法是选取合适的基数:A东西去年20块,今年10块,B东西去年5块,今年10块,那么如果以去年为基数(100%),今年A价格变为50%,B价格变为200%,平均为125%,即物价上涨25%。但以今年为基数,A去年价格为200%,B去年价格为50%,平均为125%,即去年比今年上涨25%,即今年物价降低了25%。当然,几何平均数可以解决这个问题,但是现在依旧有人用这个办法忽悠人

  12. 如何避免被忽悠:

    1. 看见“专家”的字样时,先确定这个人是权威人士还是只沾了点边儿
    2. 看发行方,分析与他的分析相关的利益事件
    3. 思考:他怎么知道这些数据和结论的
    4. 样本规模是否足够大
    5. 漏掉什么了?数据可能是真的,但是他故意只公布对自己有利的数据
    6. 留意未加说明的平均数
    7. 思考百分比后面的样本规模
    8. 思考样本中是否有outlier
    9. 思考用作对比的百分比数据的基数
    10. 思考经济数据发布的月份可能有的社会文化问题(比如放假等)
    11. 思考原始数据和最终结论之间是否有被偷换概念?是否把一件事说成了另一件事?常见手法就是利用思维惯性来做替换(某一种病报告的人数增加并不意味着患病的人就增多,可能只因为报告系统做的更好了,以及,报道的抢劫案越来越多,可能只是因为有两个记者想要获取流量罢了但官方的数量并没有增加)
    12. 思考统计口径是否发生变化,比如今年的农场数量比之前多了50万个,得出大家目前喜欢回归农场的结论前提是回归农场的人数也有相同比例的增加,且农场判定标准没有发生变化
    13. 思考数据统计后的目的性:为了赈灾和向中央要救济,则统计人口数量会偏高(这也是为什么中国会有户籍制度且如此僵硬),为了征税和征兵,则会少报
    14. 思考一家公司说自己的第一的时候,是指的是哪方面的第一,这方面是否具有广泛性和重要性
    15. 思考一个不应该能精确到小数却精确到了小数的数据是怎么计算得到的