用户注册 登录
珍珠湾全球网 返回首页

岳东晓 -- 珍珠湾全球网 ... http://ydx.zzwave.com [收藏] [复制] [分享] [RSS] 岳东晓 -- 珍珠湾全球网

日志

详解方舟子没看懂的雾霾曲线

热度 6已有 13543 次阅读2015-3-13 13:59 |个人分类:科普|系统分类:雾霾之争| 方舟子

下面这张图最近在科学网引发了巨大的争论,起因是柴静引用了这张图,而方舟子说柴静对原图数据进行了【捏造数据】的改动。该图是 Pei Li等人发表的《Time-series analysis of mortality effects from airborne particulate matter size fractions in Beijing》中的图六。方舟子可能是最早给出图出处的。在《方舟子妄批柴静捏造数据的错误》一文中,我指出方舟子虽然阅读了原论文,却根本没看懂。我在文中同时做出了正确的解读。但由于我之前并没有阅读论文,而只是读了这张图,对图中数据点的具体来历并不清楚。

现在我终于读到了这篇论文。下面进行一个简单的介绍。特别是讲讲图中的几个数据点到底是怎么来的,希望通过这个详解,能让大家对原论文以及下图有更清楚的了解。


该论文顾名思义是分析北京雾霾对死亡率的影响,这个分析是一个时序统计分析。作者根据的原始数据包括(1)2005-2009年每天的PM2.5等污染指数;(2)每天的温度、湿度等气候数据;(3)每天的心血管病、呼吸系统病死亡人数。论文使用的模型公式是

x.jpg

其中 E(Y )代表死亡人数期待值,X代表PM指数 (如PM 2.5、PM10),PM指数X 前[ix]\beta[/ix]是需要通过分析确定的系数(其意义我在后面会重点讲)。上述公式看起来复杂,因此,我做一个简单的调整,使之变得更加一目了然:

[ix]Y = f(T, RH, ...) \times e^{\beta X}[/ix]

其中 f(T, RH, ...)  是一个未知的与温度 T, 湿度RH 及其他变量的函数,在论文中使用多个分段三次曲线的乘积代表,我们就不必去追究细节了。PM指数的影响在最后的指数项里。论文作者们使用 R软件包中MGCV模块的 gam 程式对数据进行分析,确定了 X前面的系数 [ix]\beta[/ix]。这个计算仅仅是一个调用软件的过程,我们就不必去深究了。问题是 [ix]\beta[/ix] 的意义是什么。

由上述公式,在其他变量不变,而改变X时,我们有

[ix]dY = \beta f e^{\beta X} dX = \beta Y dX [/ix]

因此, [ix]\beta = \frac{1}{Y}\frac{\partial{Y}}{\partial{X}}[/ix]。

可见 [ix]\beta [/ix] 的意义是:当PM指数X增加一个单位时,死亡率增加的比例。(因为人口固定,死亡率增加比例与死亡人数增加的比例是相同的)。

明白这一点之后,上面那副图的数据点就很清楚了:它们是用2005-2009四年的数据分别进行统计分析算出的各年的[ix]\beta [/ix]值。

原论文图的正确描述应该是【The inter-annual variability of the estimated percent increases in daily mortality ASSOCIATED WITH 10 ug/m^3 INCREASE of PM2.5 in recent years. 】 原论文图下的描述少了大写的部分。也就是说,原图是 PM2.5 值每增加10,死亡率增加的百分比。

另外,该论文的模型是否可以改进,那是另外一个问题,我就不在这多讲了。


路过

鸡蛋
4

鲜花

支持

雷人

难过

搞笑

刚表态过的朋友 (4 人)

 

发表评论 评论 (36 个评论)

回复 Cateye 2015-3-13 14:34
老岳真没少做功课。
回复 岳东晓 2015-3-13 14:39
Cateye: 老岳真没少做功课。
大家也就是好玩,雾霾的事情也能打架,希望方舟子不要恨我啊。
回复 Cateye 2015-3-13 14:48
岳东晓: 大家也就是好玩,雾霾的事情也能打架,希望方舟子不要恨我啊。
恨就恨呗,他又不给你发工资。我把你这篇转到微信上了。国内人看不到方舟子在国外的言论。
回复 岳东晓 2015-3-13 15:57
Cateye: 恨就恨呗,他又不给你发工资。我把你这篇转到微信上了。国内人看不到方舟子在国外的言论。
嗯,方舟子又不是珍珠湾的,我们何必在乎他的感受。
回复 Cateye 2015-3-13 16:21
岳东晓: 嗯,方舟子又不是珍珠湾的,我们何必在乎他的感受。
方舟子攻击别人的时候在乎别人的感受了么?
回复 MingHao 2015-3-14 00:17
岳东晓: 大家也就是好玩,雾霾的事情也能打架,希望方舟子不要恨我啊。
辨清道理,对公众视听才公平。对方舟子也是真正的帮助。不过你叫他‘文傻’ 没必要。倒是向两个中学生哥们儿‘掐架’ 。学生在课堂上的讨论对深刻理解复杂的题目起到笑话吸收作用。其实平时我们阅读不同意见看法的文章也是在别人的讨论中学习。总之,我很得益于别人的辩论。
回复 MingHao 2015-3-14 00:18
Cateye: 老岳真没少做功课。
岳东晓肯定是一目十行的阅读速度,到底是脑子快。
回复 岳东晓 2015-3-14 01:06
MingHao: 辨清道理,对公众视听才公平。对方舟子也是真正的帮助。不过你叫他‘文傻’ 没必要。倒是香连个中学生哥们儿‘掐架’ 。学生在课堂上的讨论对深刻理解复 ...
    文傻是方舟子喜欢用来称呼别人的词。用在他自己身上,而且被证明,那应该是蛮好玩的。
回复 岳东晓 2015-3-14 01:12
MingHao: 岳东晓肯定是一目十行的阅读速度,到底是脑子快。
读东西要自己根据内容进行思考-测试自己理解是否正确,而不是单纯去接收信息。比如说,那张曲线假设理解成死亡率,那么怎么会心血管死亡率2%,反而大于全部疾病死亡率(1%),稍微一想,这个理解肯定不对。

那篇论文我也没有一字一句读完。而是试图根据其思路重构他们的计算。
回复 MingHao 2015-3-14 02:43
岳东晓:      文傻是方舟子喜欢用来称呼别人的词。用在他自己身上,而且被证明,那应该是蛮好玩的。
原来如此,那就不怪你了
回复 MingHao 2015-3-14 02:46
Cateye: 方舟子攻击别人的时候在乎别人的感受了么?
岳东晓说“文傻是方舟子喜欢用来称呼别人的词”
我刚知道,方舟子该借这个机会照照镜子不该那样骂别人
回复 Cateye 2015-3-14 03:18
MingHao: 岳东晓肯定是一目十行的阅读速度,到底是脑子快。
这一点我很钦佩老岳,肯于下功夫做功课,当然智力也是超人的,正是因为这两点,老岳才帮忙打赢了贺梅的官司。
回复 木一剑 2015-3-14 05:56
如果题目加个限定词“我认为”,变成“详解我认为方舟子没看懂的雾霾曲线”,就完美了
回复 方枪枪 2015-3-14 06:39
我想博主写博文其实也是本着一个证明柴静及团队未造假的目的。
柴静的团队里有相关的专家,专家应该是有专业素养的,以专业标准要求他们也算不上什么错。
简单的说一下几个我了解的小知识吧:
1.其实对于做学术的人来讲,作为一个非专业人士,不可以直接教导全体内行,重新定义基本概念、数据格式、分析方法和表现形式.
2.学术界定义的造假,."造”这个动词,在这里是针对“假”的,无中生有,是造假, 改动数据,让它和原始数据不同,也就是多了个“假”的成分,也是造假, 前者具体叫 fabrication,后者是 falsification.   http://ori.hhs.gov/definition-misconduct(曾有人跟我说过这个视频在生物医学界的共识里是造假,以后博主下结论时是否要考虑这个”业内的共识“,这里权当提出看法作个参考)
3.原论文三次曲线改为两次曲线,如果柴静明说“我们使用原文里的数据,重新拟合,结果是这样的”,就没有问题, 但是,必须说“我们拟合出来的结果说明”,而不能说原文作者的数据如何如何,那样原文作者可以诉。
4.没有全程进跟,但是还是注意了一下,在3月9日方发表的关于percent increase的理解,比较明白的说到是“死亡率变化".昨天查了一下家人的流行病学文献,这个说辞没有什么错误.


至于这个博文原论文的英文原文,英文太恐怖了,随便一溜就看见语法错误
The third model which reflect the obvious changes throughout the year can be defined as
那个reflect好刺眼。
看不下去,也就不评价了。既然你老说方粉人云亦云,那就不敢没看就人云亦云了。
回复 岳东晓 2015-3-14 07:21
木一剑: 如果题目加个限定词“我认为”,变成“详解我认为方舟子没看懂的雾霾曲线”,就完美了
方舟子:【这张图表示的是2005到2009年这5年北京pm2.5浓度、非事故总死亡率、呼吸系统疾病死亡率、循环系统疾病死亡率的情况。。。。pm2.5值最高的是2006年,之后由于要开北京奥运会进行治理,北京pm2.5值其实是逐年下降的。柴静的图却显示那几年北京循环系统疾病死亡率逐年上升,岂不成了随着pm2.5下降,人群的死亡率是随之上升的?】

CONCLUSION: Fang ZHouzi was 100% clueless
回复 岳东晓 2015-3-14 07:39
方枪枪: 我想博主写博文其实也是本着一个证明柴静及团队未造假的目的。
柴静的团队里有相关的专家,专家应该是有专业素养的,以专业标准要求他们也算不上什么错。
简单的 ...
我一直对柴静是否造假没有做出评论。这是本着一种负责的态度,而不是像方舟子一样把自己的错误理解作为轻率攻击他人品行的依据。方舟子的攻击没有证明柴静作假,只是证明了方舟子的无知与分析能力的低下。这一点我在两篇博文中进行了证明。

柴静是否作假的问题,我会进行一个客观的分析。但是应该注意的是,所谓作假是一种主观欺骗行为,需要证明人的心态,这一般来说是很难有直接证明的。所以,我们一般来说,只能列出可能性,而不能证明。

有几点可以确定

1)柴静图中最上面的数据四个数据点是来自原论文,而不是捏造;

2)柴静与原论文的区别在于,原论文使用三次曲线进行吻合,而柴静使用二次曲线;

3)方舟子对柴静作假的推理是基于他对曲线的错误理解,把曲线当成了死亡率,而不是死亡率的增加比例,基于方舟子的这一错误理解,他误以为2008年死亡率下降,而他以为柴静试图在掩盖2008年死亡率的下降。实际上,2008年的死亡率是上升的。目前我们没有证据显示柴静与方舟子对该曲线有着同样的错误理解。完全可能出现方舟子文傻不如的情况。也就是柴静理解了原论文的精神,而方舟子没有理解。我会观看柴静的视频这段陈述,然后评论。但是我目前阅读到的柴静所说的“当PM2.5 值升高,死亡率升高”的说法完全正确。

4)从方舟子 12号对我的回应看,他当时仍然没有理解图中的数据是何含义。我对他的驳斥参见科学网博文。
回复 方枪枪 2015-3-14 07:52
岳东晓: 我一直对柴静是否造假没有做出评论。这是本着一种负责的态度,而不是像方舟子一样把自己的错误理解作为轻率攻击他人品行的依据。方舟子的攻击没有证明柴静作假, ...
但是应该注意的是,所谓作假是一种主观欺骗行为,需要证明人的心态,这一般来说是很难有直接证明的。所以,我们一般来说,只能列出可能性,而不能证明。
-------------------------------------
是否要证明人的心态,以我不深的学习阅历来理解是不需要,只要是 intentionally 就判定造假。只有 accidentally 才不算。比如你不小心把4打成7因为在键盘上比较靠近,或者是大部分4都变成了7因为键盘故障,这种不算。还有一种比较冤的情况是,有人故意抹去一些数据,是为了待会儿用更大的符号加上来强调什么,结果忘了加。所以我暂时不对方这次的品行作出评价。当然这是我的个人见解,只当是交流吧。
回复 岳东晓 2015-3-14 08:19
方枪枪: 但是应该注意的是,所谓作假是一种主观欺骗行为,需要证明人的心态,这一般来说是很难有直接证明的。所以,我们一般来说,只能列出可能性,而不能证明。
------- ...
这里有个很有趣的现象,柴静正确陈述了论文的结论(无论是原曲线还是新做曲线),而指责她捏造的方舟子确实错误理解了。
回复 方枪枪 2015-3-14 08:32
岳东晓: 这里有个很有趣的现象,柴静正确陈述了论文的结论(无论是原曲线还是新做曲线),而指责她捏造的方舟子确实错误理解了。 ...
这几天我也只是大致看了下,请教了几个朋友相关的知识,没有仔细研究其中相关更具体的细节和网战,结论先不下。到时有时间的话,补补课我再仔细研究一下吧,也有可能不研究,呵呵。
回复 岳东晓 2015-3-14 08:35
方枪枪: 我觉得,这里有个逻辑,就是无论柴静是否正确陈述了论文的结论,和她是否造假无关。

不过这几天我也只是大致看了看,请教了几个朋友相关的知识,没有仔细研究, ...
证明造假得有证据。方舟子的柴静作假推理完全是基于他对论文的错误理解,而柴静的陈述完全与论文结论一致。

参见 http://zzwave.com/home.php?mod=space&uid=2&do=blog&id=28592
12下一页

facelist

您需要登录后才可以评论 登录 | 用户注册

Archiver|手机版|珍珠湾全球网

GMT+8, 2020-2-28 01:09 , Processed in 0.038034 second(s), 9 queries , Apc On.

Powered by Discuz! X2.5

回顶部