用户注册 登录
珍珠湾全球网 返回首页

岳东晓 -- 珍珠湾全球网 ... http://ydx.zzwave.com [收藏] [复制] [分享] [RSS] 岳东晓 -- 珍珠湾全球网

日志

详解方舟子没看懂的雾霾曲线

热度 6已有 25020 次阅读2015-3-13 13:59 |个人分类:科普|系统分类:雾霾之争| 方舟子

下面这张图最近在科学网引发了巨大的争论,起因是柴静引用了这张图,而方舟子说柴静对原图数据进行了【捏造数据】的改动。该图是 Pei Li等人发表的《Time-series analysis of mortality effects from airborne particulate matter size fractions in Beijing》中的图六。方舟子可能是最早给出图出处的。在《方舟子妄批柴静捏造数据的错误》一文中,我指出方舟子虽然阅读了原论文,却根本没看懂。我在文中同时做出了正确的解读。但由于我之前并没有阅读论文,而只是读了这张图,对图中数据点的具体来历并不清楚。

现在我终于读到了这篇论文。下面进行一个简单的介绍。特别是讲讲图中的几个数据点到底是怎么来的,希望通过这个详解,能让大家对原论文以及下图有更清楚的了解。


该论文顾名思义是分析北京雾霾对死亡率的影响,这个分析是一个时序统计分析。作者根据的原始数据包括(1)2005-2009年每天的PM2.5等污染指数;(2)每天的温度、湿度等气候数据;(3)每天的心血管病、呼吸系统病死亡人数。论文使用的模型公式是

x.jpg

其中 E(Y )代表死亡人数期待值,X代表PM指数 (如PM 2.5、PM10),PM指数X 前[ix]\beta[/ix]是需要通过分析确定的系数(其意义我在后面会重点讲)。上述公式看起来复杂,因此,我做一个简单的调整,使之变得更加一目了然:

[ix]Y = f(T, RH, ...) \times e^{\beta X}[/ix]

其中 f(T, RH, ...)  是一个未知的与温度 T, 湿度RH 及其他变量的函数,在论文中使用多个分段三次曲线的乘积代表,我们就不必去追究细节了。PM指数的影响在最后的指数项里。论文作者们使用 R软件包中MGCV模块的 gam 程式对数据进行分析,确定了 X前面的系数 [ix]\beta[/ix]。这个计算仅仅是一个调用软件的过程,我们就不必去深究了。问题是 [ix]\beta[/ix] 的意义是什么。

由上述公式,在其他变量不变,而改变X时,我们有

[ix]dY = \beta f e^{\beta X} dX = \beta Y dX [/ix]

因此, [ix]\beta = \frac{1}{Y}\frac{\partial{Y}}{\partial{X}}[/ix]。

可见 [ix]\beta [/ix] 的意义是:当PM指数X增加一个单位时,死亡率增加的比例。(因为人口固定,死亡率增加比例与死亡人数增加的比例是相同的)。

明白这一点之后,上面那副图的数据点就很清楚了:它们是用2005-2009四年的数据分别进行统计分析算出的各年的[ix]\beta [/ix]值。

原论文图的正确描述应该是【The inter-annual variability of the estimated percent increases in daily mortality ASSOCIATED WITH 10 ug/m^3 INCREASE of PM2.5 in recent years. 】 原论文图下的描述少了大写的部分。也就是说,原图是 PM2.5 值每增加10,死亡率增加的百分比。

另外,该论文的模型是否可以改进,那是另外一个问题,我就不在这多讲了。


路过

鸡蛋
4

鲜花

支持

雷人

难过

搞笑

刚表态过的朋友 (4 人)

 

发表评论 评论 (36 个评论)

回复 方枪枪 2015-3-14 08:46
岳东晓: 证明造假得有证据。方舟子的柴静作假推理完全是基于他对论文的错误理解,而柴静的陈述完全与论文结论一致。

参见 http://zzwave.com/home.php?mod=space&uid=2 ...
我前面说了造假的定义。方的我再看看再说。
回复 岳东晓 2015-3-14 08:51
方枪枪: 我前面说了造假的定义。方的我再看看再说。
造假的定义应该是

1)knowing X is false;
2)presenting X as true.
回复 方枪枪 2015-3-14 09:03
岳东晓: 造假的定义应该是

1)knowing X is false;
2)presenting X as true.
柴静present的是医学数据,应该根据DHHS ORI的定义。
回复 岳东晓 2015-3-14 13:33
方枪枪: 柴静present的是医学数据,应该根据DHHS ORI的定义。
Definition of Research Misconduct

Research misconduct means fabrication, falsification, or plagiarism in proposing, performing, or reviewing research, or in reporting research results.

(a) Fabrication is making up data or results and recording or reporting them.

(b) Falsification is manipulating research materials, equipment, or processes, or changing or omitting data or results such that the research is not accurately represented in the research record.

(c) Plagiarism is the appropriation of another person's ideas, processes, results, or words without giving appropriate credit.

(d) Research misconduct does not include honest error or differences of opinion.
回复 木一剑 2015-3-15 04:13
http://www.zhenzhubay.com/zzw/upload/up/22/c3c3e7f.jpg
http://www.zhenzhubay.com/zzw/upload/up/22/57b8687.jpg

方舟子明确那张图是死亡率的变化,以上分别是他3月5号(twiter) 和9号(科学公园)言论的截屏
回复 岳东晓 2015-3-15 10:05
木一剑: http://www.zhenzhubay.com/zzw/upload/up/22/c3c3e7f.jpg
http://www.zhenzhubay.com/zzw/upload/up/22/57b8687.jpg

方舟子明确那张图是死亡率的变化,以上分 ...
【2005-2009年间北京pm2.5 浓度与三种疾病的死亡率的变化。】

这句话你的理解是 ”死亡率的变化”是因变量,但另一种理解是“死亡率”是因变量,曲线是描述死亡率随时间的变化。方舟子的是后一种理解。你看下面他的陈述就知道了,方舟子认为柴静把死亡率由起伏改成了逐年上升,进行了篡改。非常显然,方舟子把曲线值理解成为死亡率。
回复 木一剑 2015-3-15 10:11
岳东晓: 【2005-2009年间北京pm2.5 浓度与三种疾病的死亡率的变化。】

这句话你的理解是 ”死亡率的变化”是因变量,但另一种理解是“死亡率”是因变量,曲线是描述死亡 ...
我看到有别人持和你相同的看法,但我不这么认为。
回复 岳东晓 2015-3-15 10:15
木一剑: 我看到有别人持和你相同的看法,但我不这么认为。
方舟子上下文这么写的:【【这张图表示的是2005到2009年这5年北京pm2.5浓度、非事故总死
亡率、呼吸系统疾病死亡率、循环系统疾病死亡率的情况。最上面的那条曲线是循环系
统疾病死亡率的情况:在论文原图,最高的是2007年,2008年有所下降,2009年又升上
去了。但是在柴静的图中,这条曲线却变成了平滑上升,也就是说,这五年北京循环系
统疾病死亡率是逐年上升的。这显然与事实不符,是对原图的篡改。】

注意,他正式博文中用的词是“情况”,后面写【这条曲线却变成了平滑上升,也就是说,这五年北京循环系统疾病死亡率是逐年上升的】,是把曲线当成死亡率曲线。

而且无论如何,方舟子也没有看懂原图是描述 PM2.5每增加10,死亡率的变化。如果他明白这一点,就会知道柴静说【pm2.5 上升,死亡率上升】是对论文结果的正确陈述。
回复 木一剑 2015-3-15 10:21
岳东晓: 方舟子上下文这么写的:【【这张图表示的是2005到2009年这5年北京pm2.5浓度、非事故总死
亡率、呼吸系统疾病死亡率、循环系统疾病死亡率的情况。最上面的那条曲 ...
我得不出你的结论,我只能说,如果方写成“也就是说,这五年北京循环系统疾病死亡率“受PM2.5的影响”是逐年上升的”,会更明晰,不会让人攻击。
回复 岳东晓 2015-3-15 10:26
木一剑: 我得不出你的结论,我只能说,如果方写成“也就是说,这五年北京循环系统疾病死亡率“受PM2.5的影响”是逐年上升的”,会更明晰,不会让人攻击。 ...
假设方舟子的理解与你一样理解成【死亡率“受PM2.5的影响”】,那他就应该明白,柴静【当pm2.5值升高的时候,人群的死亡率是随之上升的。】完全符合论文结论---因为这条曲线数据大于0 。
回复 木一剑 2015-3-15 10:51
岳东晓: 假设方舟子的理解与你一样理解成【死亡率“受PM2.5的影响”】,那他就应该明白,柴静【当pm2.5值升高的时候,人群的死亡率是随之上升的。】完全符合论文结论--- ...
理论上说,你不能“因为这条曲线数据大于0 ”而得出【当pm2.5值升高的时候,人群的死亡率是随之上升的。】这个结论。
回复 岳东晓 2015-3-15 13:06
木一剑: 理论上说,你不能“因为这条曲线数据大于0 ”而得出【当pm2.5值升高的时候,人群的死亡率是随之上升的。】这个结论。 ...
你也没有看懂?
回复 木一剑 2015-3-15 13:35
岳东晓: 你也没有看懂?
何出此言?

我都只是很平淡地说一个事实:

理论上说,你不能“因为这条曲线数据大于0 ”而得出【当pm2.5值升高的时候,人群的死亡率是随之上升的。】这个结论。

没下结论说你没看懂吧?
回复 岳东晓 2015-3-15 13:41
木一剑: 何出此言?

我都只是很平淡地说一个事实:

理论上说,你不能“因为这条曲线数据大于0 ”而得出【当pm2.5值升高的时候,人群的死亡率是随之上升的。】这 ...
根据论文,死亡率 ~ exp (b*X) , X 是PM2.5指数,b 就是Fig 6 曲线的值。只要 b 大于0,当PM值增加时,死亡率就增加。

这是我整个上面文章所讲述的事情。
回复 木一剑 2015-3-15 13:48
岳东晓: 根据论文,死亡率 ~ exp (b*X) , X 是PM2.5指数,b 就是Fig 6 曲线的值。只要 b 大于0,当PM值增加时,死亡率就增加。

这是我整个上面文章所讲述的事情。 ...
同意啊,不过你的公式是∂,这个我更是同意。所以我完全同意这样的说法:据图中所示的正数值,PM2.5的升高,对死亡率的增加有正向的作用。

但是仅仅基于图中所示的正数值,我不能说:【当pm2.5值升高的时候,人群的死亡率是随之上升的。】

有道理吧?
回复 岳东晓 2015-3-15 13:53
木一剑: 同意啊,不过你的公式是∂,这个我更是同意。所以我完全同意这样的说法:据图中所示的正数值,PM2.5的升高,对死亡率的增加有正向的作用。

但是仅仅基于图中所 ...
当然是在假定其他因素(如气温)相同的情况下,就是说其他条件相同,如果PM2.5增加,则死亡率增加。
12

facelist

您需要登录后才可以评论 登录 | 用户注册

Archiver|手机版|珍珠湾全球网

GMT+8, 2024-4-21 00:00 , Processed in 0.026177 second(s), 9 queries , Apc On.

Powered by Discuz! X2.5

回顶部