数据分析实战：使用Python分析新型冠状病毒的发展趋势

yankeeaqua

2020-02-25

这次疫情的情况大家也都了解了，各地也都延迟开学或者延迟开工，对于我们来说，正好是一次深入学习的机会。今天，我就带领大家分析一下新型冠状病毒的爆发趋势，也借此作为一次数据分析课程的实战案例，从数据获取、数据清洗、数据可视化再到产出数据结论，完整的走一遍数据分析流程。

这次使用的数据是霍普金斯大学收集的世界范围内的病毒爆发数据。

导入所需的包和数据

数据清洗

第一：删除不需要的数据列

从数据中我们可以看出，第一列相当于编号，第五列是数据更新的最后时间，这两列对我们的分析来说没有实际意义，所以先把这两列进行删除操作：

第二：对数据集中的空值进行处理

先来看一下数据的整体情况：

我们发现，只有省份这一个字段是有空值的，那我们再来看一下具体的空值有哪些：

经过筛选发现，空缺的都是一些国外的省份，这是由于数据收集过程中产生的，并且我们无从推断到底是什么，所以，这里的空值我们选择不处理。

第三：删除重复数据

通过使用dumplicate方法，我们发现这个人工整理的数据集不存在重复情况，所以也不需要进行去重操作。

数据洞察

我们首先来看一下，截止到数据完成时间，世界上总共有多少国家已经「沦陷」了：

通过统计发现，总共只有32个国家已经有了确诊患者，但是，细心的同学可能会发现，国家列表当中有「China」和「Mainland China」，第二个表示的是「中国大陆」，其实也是中国，所以我们应该把「Mainland China」也改为「China」统一口径，在实际工作过程中，跨部门的数据经常会出现这种情况，所以，处理这种数据噪音也是数据分析师的日常工作之一。

接着，我们看一下时间字段，时间字段的处理也是数据分析过程中不可或缺的一个步骤：

这里的时间，都是精确到「小时」的，为了便于统计，我们把它改成精确到「日」：

接下来，我们以国家作为维度，来统计一下每个国家的确诊人数：

排名第一的肯定是中国，排名靠前的基本都是中国临近的亚洲国家，欧美国家当中，排名第一的是德国，如果是真正工作过程中，德国这一点就是「异常点」，肯定要深入挖掘，在这里我们只是做一个示例。

之后我们以时间作为维度，分析一下每天的感染人群数量的变化：

从这里可以看到，14天之内感染人数就从555人增长到24503个人，增长速度还是很快的，那我们接着也要具体分析一下，每天新增的确诊人数有多少人，这里我们需要用到diff( )方法：

数据可视化

首先来看每天的确诊人数，基本上是指数增长的一个走势，符合传染病的爆发规律，我们要做的就是根据之后的数据，洞察拐点的到来。

数据分析大数据 python

安科网

数据分析实战：使用Python分析新型冠状病毒的发展趋势

yankeeaqua

导入所需的包和数据

数据清洗

数据洞察

数据可视化

yankeeaqua

相关推荐

3000字！5大SQL数据清洗方法！

干货！做数据分析应该掌握的5个SQL数据清洗方法

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

为什么所有的机器学习模型有90％从没有投入生产

为了下个项目的质量！每个数据科学家都应该学会这两种工具

阿里达摩院发布AI EARTH，全球首次实现多源对地观测数据分析

无需GPT-3！国外小哥徒手开发Text2Code，数据分析代码一键生成

会机器学习就够了？下一代数据科学家群体走向“全栈”！

学Python就能做好数据分析？万能语言背后是一片韭菜地

低代码为AI降低准入门槛

Pandas这样来设置，做数据分析舒适百倍

10 个加速Python数据分析的简单的小技巧

推荐这块拖拉拽报表工具，超好用！

Python数据分析Numpy库常用函数详解，提到循环就该想到的库

Python数据分析实战，小费数据集应用

超能力加持！用Python增强Excel的3大集成方法及用途

超能力加持！用Python增强Excel的3大集成方法及用途

Python数据分析实战项目介绍

企业BI智能大屏，除了页面炫酷，还能带来什么？

Smartbi数据分析工具处理大数据性能如何？

yankeeaqua