[这几天中国新增病例数据]数据分析:新冠肺炎Covid-19数据分析
是的,新冠肺结核禽流感到现在TMD还没完结!!!
第三线的医师牙医仍然力战在第三线;实体店小企业企业江河日下;雇员也急着复产,特别是很多都有按揭、消费信贷在身,欠费就麻烦事了;小学生同学也急着到校,立刻要是博士生面试、中考了。每晚整天高度关注着禽流感,高度关注着于此相关的任何人重要信息。这类作为网络专业人士,与统计数据关系密切,这时也想做点预测,同时也想趁机练下统计数据挖掘的全业务流程。
责任编辑从一下几个方面进行。
统计数据以获取统计数据展现反转检验预测推论
禽流感暴发以来,数十家中文网站都第三时间提供了禽流感动态世界地图,卫房管局也提供统计数据全力支持,我自己试著过的统计数据以获取方式有如下表所示三种:
保辛华USB
需要注册登记、提出申请初始化,但回到的统计数据非序列化统计数据。
网易USB
回到统计数据最匀称,含世界欧洲各国、我国、省区每星期统计数据。不过当中多于我国统计数据是包涵历史统计数据的,其他的统计数据均多于当日新一代统计数据。责任编辑的统计数据以这个USB为主。
GitHub动态统计数据
那位天神透过食腐,把禽流感统计数据动态并行到GitHub,统计数据也重新整理的非常全面性。但是,当中的疑为、追加统计数据的确,每星期追加根本无法透过当日诊断乘以前一晚诊断来排序,欠精确。
tushareUSB
在我们互金领域使用最广的tushare包,也提供了USB来全力支持禽流感统计数据,以获取的方法最简单,但是提供的统计数据字段太少,多于6个字段,且关键的疑为统计数据没有。
WindUSB
WindUSB提供的统计数据最全,同时也全力支持查询历史统计数据,理论上应该是最理想的选择,但是这个USB的变量拆分的太细了!截个图大家看下:
看到了吧,每个指标都有唯一的编号,而全国有这么多的省、市,乘以各个指标,这个量巨大!但人家竟然能一个个的标记上去,说明下了很大的功夫,为这一严谨的行为点赞 。
严谨固然是好事,但也为请求统计数据带来了不变,如果要预测全国所有城市的统计数据,并根据量分层的话,这个就比较费劲了。
当然也可安装WindPy包,直接from WindPy import *来初始化,但我安装这个包失败了,根本无法自己初始化API了。
综上:
上述各个USB各有长短,责任编辑主要采用网易USB、GitHub动态统计数据、WindUSB统计数据,在此表示感谢。
秉承着一张图能说清就绝不用两张的原则,我将最核心的4个指标及存量、增量整合到一起,并封装好供初始化,这样每晚只需更新下统计数据,图表会自动更新,下面逐个进行。
统计数据来源:网易USB
从上图可知:
从诊断-疑为统计数据来看,防控工作效果明显,禽流感已得到基本控制。诊断+疑为的累计和追加统计数据均已达到顶峰并逐渐下降,这说明应收尽收、应治尽治的工作成果显著。特别是武汉3天拉网式大排查过后,追加降低的趋势更明显。当中,2-12日追加诊断超过1.4万,是由于当日统计口径变更加入了临床诊断;2-20日诊断人数反弹,是由于当日几个监狱的诊断曝光导致。以上两处明显的统计数据波动均是由特殊情况导致的。从治愈-死亡统计数据来看,第三线的救护工作成果显著。累计和追加治愈人数,均呈现指数级增长,说明随着全国医疗资源的集结,前线的治疗效果也变得更好。这也给目前的患者带来希望,同时也有助于稳定全国的人心,当然更重要得是:治愈的增多表明更多的床位资源能被释放出来,床等人表示在资源上已经渡过了禽流感早期一床难求、根本无法回家等的恐怖境地。从02-19开始,日治愈的患者 > 日诊断 +日疑为,这样我们就能更多的去治疗存量患者。
总体来说,情况在好转,目前最大的问题是仍有4W+的诊断患者,这当中还包括1W+的重症患者,这部分的救治难度非常大。所以前些天也开始使用康复者血浆、中西医结合等治疗,可以想象现在一定有大批的医疗工作者在攻关研制特效药,静候佳音。
显而易见的是:湖北的统计数据占了绝大部分,而武汉又占了湖北的绝大部分。所以必须把湖北、武汉的统计数据与同级别区别预测,避免统计数据不平衡带来的伪统计数据推论。
统计数据来源:WindPyUSB
从上图可知:
从诊断-疑为统计数据来看,禽流感防控效果非常好,已得到控制。连续20多天统计数据连续下降,并且多省的追加统计数据连续多天为0,只要不再发生大规模的群居性感染,禽流感将很快退去。从治愈-死亡统计数据来看,治疗效果明显。治愈的人员在诊断人数中占到68.6%,说明全国治疗工作效果突出,并没有因为援助湖北而导致自家救治不利;死亡统计数据始终徘徊在低位,已连续多天日存量患者为负数,这将有助于各省区集中精力救助存量患者。统计数据来源:WindPyUSB
湖北的统计数据与全国累计统计数据走势完全一致,或者说,全国统计数据的走势是由湖北统计数据决定的。
从诊断统计数据看,累计诊断和追加确证都已经过了猛烈发展的时期,总体慢慢趋于稳定,但局部仍有波动。因为时不时的群聚性集体感染事件发生,如监狱感染,这类事件在禽流感前期因统计数据量大影响不明显;但现在追加日趋减少的情况下,发生一例就会引起波动。所以当下更是要严控此类事件,不能松懈。从治愈和死亡统计数据看,举全国之力援助湖北起到了至关重要的作用,这也是我国制度优势的集中体现!刚刚看新闻,全国累计已经向武汉派出4W+医务人员,正是这些医务人员的辛苦付出,极大的加快治愈速度,并有效的控制了死亡数量。
反转(knee point)是描述统计数据增长速度变化的名词,如果在某点统计数据的赠速或减速出现明显的加快、减缓,则该点即称之为反转,该点即为曲线的凹凸分界点。Python其实有包实现反转预测功能,knee包。下面这篇文章对knee包的使用,做了详细介绍,责任编辑也是在这篇文章的基础上进行检验。
装好knee包后,定义一个函数,使用knee包检验每个指标的反转情况,并给予不同的反馈:
注意:因为我的统计数据中时间使用的是month_date,所以直接写进函数中。
用该统计数据检验了全国统计数据的反转,发现几个统计量出现了反转:
=================================================================
=================================================================
=================================================================
=================================================================
=================================================================
=================================================================
=================================================================
=================================================================
如上各图,部分指标已出现反转,累计疑为、累计死亡、累计死亡、累计疑为均出现了反转,说明禽流感已经基本控制;追加统计数据的反转则更多是由于单日统计数据的剧烈波动导致的,并一定就能认为单日反转已经出现。
禽流感总体情况变好的趋势越来越明朗。诊断-疑为统计数据积极向好发展;治愈-死亡也得到控制,下一步就是全力治愈存量患者、研制疫苗两件大事了。湖北由于全国支援力量的到达,病人的治愈大幅提升,近两天的新闻报到,日均出院都在2000+以上,相信过不了多久存量患者的统计数据将大幅降低;同时湖北除武汉外的各区由于一省援一市政策的出台也得到了有力控制,近两天多数省份都是追加为0,说明已经控制住了人传人。当然,湖北要想成功必须先解决武汉,特别是武汉现在还有大量的存量患者,当中还有不少的重症患者,这肯定会增大工作难度。加油!非湖北省份,由于严格的防控措施,禽流感已经取得控制,所有各省份都开始了有序复产,这是有必要的,不然今年经济将受到重创。那样的话,即便我们成功战胜了禽流感,也会在经济上掉入另一个更大的坑。
OK,这篇文章脱了好久终于要完结了,中间由于整天办公和其他项目暂停了好几次,总而言之,言而总之:向英雄的武汉人民致敬!向力战在第三线的医务工作者致敬!向每一个以不同方式为我们这个古老的、饱经磨难的祖国作出贡献的我国人致敬!胜利就在不远的前方,请再坚持下,莫让心理的反转比禽流感的反转先来。
唐代宗广德元年(763年)春,诗圣杜甫在成都,听闻官军收复洛阳,安史之乱完结,心中狂喜,写下了这首著名的《闻官军收河南河北》:
相信我们一定能等来胜利的那天,到时候我们再怀着当年诗圣的心情,把酒言欢!
我国加油!
湖北加油!
武汉加油!