注册 登录
美国中文网首页 博客首页 美食专栏

ImYoona //www.sinovision.net/?70618 [收藏] [复制] [分享] [RSS] txgz999@yahoo.com

分享到微信朋友圈 ×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

柴静视频中图示的解读

热度 8已有 20282 次阅读2015-3-14 16:16 分享到微信

3/6/2015 方舟子最初的推特
https://mobile.twitter.com/fangshimin/status/573734653351174144

柴静视频中图示的解读_图1-1

柴静视频中图示的解读_图1-2



柴静视频中图示的解读_图1-3

柴静视频中图示的解读_图1-4


高清版:柴静雾霾调查:穹顶之下
https://www.youtube.com/watch?v=xbK4KeD2ajI

柴静视频中图示的解读_图1-5

柴静视频中图示的解读_图1-6

柴静视频中图示的解读_图1-7

柴静视频中图示的解读_图1-8

柴静视频中图示的解读_图1-9

柴静视频中图示的解读_图1-10


柴​静​雾​霾​调​查​片​《​穹​顶​之​下​》​中​有​争​议​的​“​中​科​院​给​我​们​提​供​的​测​算​显​示​,​当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​.​.​.​”​引​用​图​表​原​论​文​。​中​科​院​大​气​物​理​研​究​所​、​北​大​医​学​院​等​单​位​做​的​【​北​京​大​气​颗​粒​物​粒​级​对​死​亡​率​影​响​的​时​间​序​列​分​析​】​。
Time-series analysis of mortality effects from airborne particulate matter size fractions in Beijing


3月19日补充:

蒙枪枪垂问,勉为其难的了解了一下柴静视频中一个有关P​M​2​.​5值和死亡率关系的图示引发的争论。

初读之下我有这样三个疑问:
1)柴静说'当PM2.5值升高的时候',是在说2005-2009的实际情况,还是在说一种与事实不同的假设状态?
2)为何三条曲线和三个三次函数的值不匹配?
3)为何柴静的最上面一条曲线与论文图完全不同?

看了柴静视频的那个片段,通读了原始论文以及方舟子和岳东晓的相关博文,最主要是靠了一剑和枪枪两位好友的点拨,感觉现在基本理解了该图示的意思。所以我来用自己的语言来谈谈我的理解。

柴静图是基于原始论文及其中的图6。这图说的是2005至2009年北京市的PM2.5值对三种常见死亡原因(循环系统,呼吸系统,非意外事故)的死亡率的影响,更明确的说是测算在每天PM2.5值增加10时,这三种死亡率的增加幅度。

有意思的是当考虑PM2.5值对死亡率的影响时,作者并没有直接比较那些年份间PM2.5的大小和死亡率的大小的关系,在论文中甚至没列出那些年的死亡率,而是估算了一个假设的问题,在同一时间段如果PM2.5增加10,死亡率会有多大变化?

论文作者在北京某北三环和北四环之间的密集居住区的某个点上持续5年测量了每天的PM2.5值,又用了国家机构提供的北京市每天各种死亡原因的死亡数数据。具体的测算方式据作者说是基于时间序列分析,我没学过这个理论,但如果我有一年365天每天的死亡数和PM2.5值,我会如何估算呢?我们知道这些PM2.5的值大致是几十多的有一百多。所以在这365个数组里,会有一些两组两组的能成为一对,它们的PM2.5值会相差将近10。我们就计算对应的死亡数的增长率,然后把每对所得的死亡数的增长率做个平均,就得到一年的估算值。

这样我们就有了这五年每年这三种常见死亡原因的死亡率的增长率的估算值,然后用曲线拟合来描述这个增长趋势,这是个简单的数学问题,就是如何选取一定次数的多项式曲线来尽可能的和给定的样品点拟合,这在数学上称为最小二乘曲线拟合 (curve fitting in the least-squares sense) http://read.pudn.com/downloads144/ebook/629385/minleast.doc, 我们可以用一个拟合度(R^2值)来衡量这种拟和程度,这值最大是1,当曲线经过所有样品点时达到。

论文图用的是四次曲线来拟合五年的数值,所以拟合度达到1,而柴静的图用的是三次曲线来拟合五年的数值。这说明柴静图和论文图曲线的不同是因为前者用三次曲线吻合而后者用四次曲线,至少从数学上讲两者都是正确的结果。当然从这个具体问题看,也许可以说由于样品点的上下波动,三次曲线难以和样品点有很好的吻合,应该用四次曲线来吻合更合适。当然是不是需要用四次曲线来拟合又和想要得到的结论有关,在论文中强调的一点是2008年北京奥运会前对空气污染的控制,那用四次曲线就很有必要。而柴静要说明"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​",那用三次曲线来拟合也能行,事实上曲线拟合都不需要,因为这五年每年的死亡率测算结果都说明了这个结论。

也许有人会认为"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"这样一个结论是显而易见无需论证的,其实也许也不尽然,因为同一篇论文还发现了P​M​2​.​5​-10的​值​的升​高对​人​群​的​死​亡​率​没明确影响。

回到我前几天不解的问题。这图利用的北京PM2.5值是虚拟的吗?也是也不是。大致上讲它是在比较那五个年度PM2.5值(76,84, 78, 69, 65)时的死亡率和这些值增加10,即(86, 94,88,79,75)时的通过上述估算的死亡率的增长率。(在我前面的土测算法里严格的讲不一定就是这些数如76和86,而是那些对中大的半部分的平均和小的半部分的平均。所以也可能是比如75和85,相差一定是10。)

那么柴静说的当PM2.5值升高时死亡率是随之上升的是如何体现在图上的呢?这条曲线完全在横坐标的上方,所以每年(即每个横坐标点)都是一个证明柴静这句话的例子。前几天我一直以为柴静说的当P​M​2​.​5值升高指的是横向,即如果按年份不断增长,现在才知道是指同一时间如果PM2。5值高一些的话会对死亡率造成的影响。

记得推特或新语丝里有评论说图上显示的每年的死亡率数据,为何要提每天死亡率?当我们了解了估算的途径后就知道光有年死亡率是没法进行估算的。

还有论文图里标的每年的P​M​2​.​5值并不是官方的北京市数值,而且官方也没公布过这几年的数据(除2005年外)。这个数据就是依据作者在北京某处的逐日观察结果。

最后总结一下我对柴静图和论文图不同的理解。之所以不同是因为前者用的是三次曲线拟合而后者用的是四次曲线拟合。对于柴静想说明的结论"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"而言,拟合都是多余,每年的测算值都是正的本身就说明了柴静的结论。

柴静视频中图示的解读_图1-11



免责声明:本文中使用的图片均由博主自行发布,与本网无关,如有侵权,请联系博主进行删除。







鲜花
3

握手

雷人

路过

鸡蛋

刚表态过的朋友 (3 人)

发表评论 评论 (183 个评论)

回复 黄河魂的博客 2022-11-15 06:30
柴静是我老乡,离开CCTV有点可惜!
回复 张泗洋 2015-8-4 04:01
哈哈哈哈哈,方在操蛋
回复 方枪枪 2015-3-27 15:07
在美一方: never too late to learn   

冒个泡就跑。。。。
http://blog.sinovision.net/home/space/do/blog/uid/70618/id/250762.html

下次来这找我。:)
回复 在美一方 2015-3-27 15:01
方枪枪:    都把天香害了,人家现在看统计学视频。现学。
never too late to learn  

冒个泡就跑。。。。
回复 方枪枪 2015-3-26 20:57
在美一方: 你文科了你   
   都把天香害了,人家现在看统计学视频。现学。
回复 在美一方 2015-3-23 23:57
随笔: 可我脑袋里就是这么反应滴。
你文科了你  
回复 岳东晓 2015-3-23 23:53
随笔: 其实,我们再继续深究也没什么意义了,常常,主观不是可以被客观改变的。
目前我们的议题已经转移到论文的可信度问题。雾霾PM值是观测数据,它是什么就是什么,这个数据是客观存在。

图6上面的黑柱是PM2.5的平均值。我与另一位人士的分析表明, 这些黑柱的PM2.5值仅仅是各年雾霾的参考数字,可有可无,图6曲线的数据与这个平均值没有关系,黑柱对该图的雾霾毒性与PM2.5的关系的分析没有影响。
回复 随笔 2015-3-23 23:39
在美一方:      我没这么说吧?
可我脑袋里就是这么反应滴。
回复 随笔 2015-3-23 23:37
岳东晓: 标准差的定义与统计分布无关。正态分布只是我举的一个例子,说明在这种分布下标准差与平均值之间可以没有关系,而是独立的。我可以构造一种统计分布,其标准差小 ...
其实,我们再继续深究也没什么意义了,常常,主观不是可以被客观改变的。
回复 在美一方 2015-3-23 23:32
随笔: 谢谢科普,现在基本可以把雾霾和毒气对等了.
    我没这么说吧?
回复 在美一方 2015-3-23 23:31
随笔: 不知有多少人会相信pm达到200,某种疾病的死亡率会上升26%,而且是当天,立竿见影。按两倍的关系计算,pm500时,医院就变殡仪馆了。
我对pm以前不是很清楚,现在 ...
好像还是有人相信的,我看
回复 随笔 2015-3-23 23:23
在美一方: 至于“从医学的角度看,雾霾会不会对心血管系统的疾病产生影响?”

应该会,但是影响多大,我不知道,也许可能挺严重。可是,严重不严重的,有横向比较也有纵向 ...
谢谢科普,现在基本可以把雾霾和毒气对等了.
回复 随笔 2015-3-23 23:21
在美一方: 昨天这条是吃寿司时候用手机回的,非常简短,也许没能说明问题。现在重新说一遍。

表一里面数据很有意思。PM2.5 是【2 435】,但是明显不是平均分布,其P75 就 ...
不知有多少人会相信pm达到200,某种疾病的死亡率会上升26%,而且是当天,立竿见影。按两倍的关系计算,pm500时,医院就变殡仪馆了。
我对pm以前不是很清楚,现在在我脑袋瓜里雾霾比SAS病毒还可怕。
回复 岳东晓 2015-3-23 22:48
随笔: 标准差不仅用来计算正态分布,也可以直接描绘原始数据的离散程度,说明平均数的代表性。平均数表明的是数据的集中程度,标准差表明了数据的离散程度。

“-1, 5 ...
标准差的定义与统计分布无关。正态分布只是我举的一个例子,说明在这种分布下标准差与平均值之间可以没有关系,而是独立的。我可以构造一种统计分布,其标准差小于平均值,我也可以构造一种分布,标准差大于平均值。因此,单从标准差大于平均值不能说明分布没有统计规律。

就雾霾的PM值来说,其变化可能完全没有规律(包括统计规律)。但即使PM值变化无规律,不能说明PM值与死亡数没有关联。我举个例子(仅仅是例子),假设PM值变化毫无规律,一天是0,一天是500,但somehow 死亡数增加总是等于PM值的2倍,这两者之间就是一个线性的关联。

我想,你的意思可能是,当standard deviation大于 平均值,那么平均值缺乏代表意义。
回复 在美一方 2015-3-23 22:18
随笔: 我对论文的看法更多基于对其统计方法的分析,从不同的角度看这篇论文会得出不同的结论。
有件事想请教你,从医学的角度看,雾霾会不会对心血管系统的疾病产生影 ...
至于“从医学的角度看,雾霾会不会对心血管系统的疾病产生影响?”

应该会,但是影响多大,我不知道,也许可能挺严重。可是,严重不严重的,有横向比较也有纵向比较。横向比较就是和其它 risk factors 相比,纵向就是有没有剂量效应,如果有,是怎样的。
回复 在美一方 2015-3-23 22:12
随笔: 我对论文的看法更多基于对其统计方法的分析,从不同的角度看这篇论文会得出不同的结论。
有件事想请教你,从医学的角度看,雾霾会不会对心血管系统的疾病产生影 ...
昨天这条是吃寿司时候用手机回的,非常简短,也许没能说明问题。现在重新说一遍。

表一里面数据很有意思。PM2.5 是【2 435】,但是明显不是平均分布,其P75 就已经是105了,可见200以上的数据相当少,这个从图一也可以看出来,估计200以上的数据可以用罕见来形容。

图3是剂量-效应曲线。既然原始数据里面200以上罕见,只要是用实际数据而非理论根据建模,无论建什么样sophisticated的模型,其估值的定义域都不应该超出建模所用的定义域。所以,我的意思是,图3的剂量效应曲线,200以上的都是臆想,更枉说用 PM2.5=10 时候的 CM% increase 为1.38% 来推算PM2.5 =200 时候的26%了。

就在这两天,我看到英国的一项研究表明,乳腺癌预后估算模型,由于建模时候40岁以下患者的数据相对缺乏(并非完全没有),而导致对40岁以下患者的预后估算的某些项目非常不准确。这样的巨大误差,不仅对选择医疗手段有影响,对各种教育预防措施的指导投入也有不小的副作用。

类似的,这篇论文里面的模型,由于建模数据中 PM2.5 接近200 的先天不足,完全不能用于估算 PM2.5 达到200时候的情形。
回复 随笔 2015-3-23 18:41
岳东晓: 我对这句话不理解:“标准差超过了平均数,这样的数据毫无规律可言”。

对于正态分布来说,

p ~ exp [- (x-a)^2/2s^2 ] ,a 为平均,s 为标准差,

平均值与标 ...
标准差不仅用来计算正态分布,也可以直接描绘原始数据的离散程度,说明平均数的代表性。平均数表明的是数据的集中程度,标准差表明了数据的离散程度。

“-1, 50, 101” 的平均数为50;“49, 50, 51”的平均数也是50, 这是两组完全不同意义的平均值。

前一组的平均数为50,如此分散的数据的标准差还不到“正负59”,可想而知,那组pm2.5-10的数据 ( 平均数50, 标准差正负59)长的什么鬼样子了。

统计的结果是否科学,数据是关键,模型其次。平均数,标准差代表的是客观事实。周末我也看了看大家的讨论,其中一个重点讨论是,在报告中应该选用什么模型更合适数据分析。我说的可能重了,用模型去修正数据就等于用主观去修正客观, 一群毫无关联的数据, 总能找出模型把它描绘成完美的曲线。

我们不是在讨论pm是否和死亡率有关,而是它们之间的关联程度. 注意概念,我们讨论的是同天雾霾和同天死亡率的关系。对于眼睛和逻辑就能分出来的没有明显趋势,没有高度相关的数据去找趋势,找相关系数,结果100%的match我也不会相信。

我的看法也仅对此论文和柴静的报告而言。没有一篇论文是完美的,特别是统计论文,不能说有瑕疵就不去研究分析,但在用这些结果时应该慎重,柴静报告里的这张图用的太草率了。
回复 岳东晓 2015-3-23 00:37
随笔: 模型是一方面,数据可能也有问题,不是随便一堆数据都可以进行趋势和相关分析的,我觉得这是论文的致命弱点。

我们看不到原始数据,但通过table1的数据能略知一 ...
我对这句话不理解:“标准差超过了平均数,这样的数据毫无规律可言”。

对于正态分布来说,

p ~ exp [- (x-a)^2/2s^2 ] ,a 为平均,s 为标准差,

平均值与标准差是独立的。

另外,雾霾PM值没有规律也不能说明PM值与死亡数不相关。
回复 随笔 2015-3-22 22:34
在美一方: 比较一下图1和后来那个exposure-response图,我不认为以图1报告的数据分布做出那个dose-response 曲线是 valid and justified. 这是我说的文章很有问题之一,也 ...
我对论文的看法更多基于对其统计方法的分析,从不同的角度看这篇论文会得出不同的结论。
有件事想请教你,从医学的角度看,雾霾会不会对心血管系统的疾病产生影响?
回复 随笔 2015-3-22 22:26
岳东晓: 论文作为起点的数学模型可能存在问题,导致只能在线性近似下成立。不过,类似的文献也是用类似的模型。雾霾的影响实际是以指数形式出现,其余的因素用 non-param ...
模型是一方面,数据可能也有问题,不是随便一堆数据都可以进行趋势和相关分析的,我觉得这是论文的致命弱点。

我们看不到原始数据,但通过table1的数据能略知一二。下面是table1中第三排的数据:

根据pm2.5-10计算出的平均数是50,标准差高达-59到+59,也就是说平均数是根据一群从-9到109(大约)的数值计算出来的。

标准差超过了平均数,这样的数据毫无规律可言,再好的模型也得不出科学的结果。这一点论文的结论已经自证,pm2.5-10这组数据和其它三个指标找不到相互的关系,这个结论是必然的。

另外,用同日的雾霾指数和死亡率进行对比就是把不相干的两件事配对,违反基本常识。如果不考虑死亡滞后因素,即使算出高相关系数,也是瞎猫撞上死耗子,没什么实际意义。

这些问题可以从论文里看到,基于资料的局限性论文本身是无法解决的。

facelist

您需要登录后才可以评论 登录 | 注册

 留言请遵守道德与有关法律,请勿发表与本文章无关的内容(包括告状信、上访信、广告等)。
 所有留言均为网友自行发布,仅代表网友个人意见,不代表本网观点。

关于我们| 节目信息| 反馈意见 | 联系我们| 招聘信息| 返回手机版| 美国中文网

©2024  美国中文网 Sinovision,Inc.  All Rights Reserved. TOP

回顶部