数据分析8个具体步骤

探索世界改变世界

2020-04-21

# 在对数据进行分析时，主要细分为明确目标、应用思维和如下8个具体步骤：

1、读取数据

2、清洗数据

3、操作数据

4、转换数据

5、整理数据

6、分析数据

7、展现数据

8、总结报告

接下来将介绍使用python来具体处理数据，包括上面几个步骤的实现，以及给出具体的操作例子。

需要记住的是使用python处理数据所用到的具体函数、方法。

# 一、python读取数据

‘‘‘‘‘‘

1、简要

2、如何从Excel文件中读取数据

3、如何从MySQL数据库中读取数据

4、如何从网页中读取数据

‘‘‘‘‘‘

1、简要

读取数据时数据分析的第一步，相对来说比较简单，读取数据类型可以大致分为几类，一般用到的都是从 excel表、数据库、网页中进行读取。

我们使用python中的pandas库来实现读取操作。

2、如何从Excel文件中读取数据

Python代码如下：

读取数据之前需要导入pandas库

#导入pandas库

import pandas as pd

#导入Excel文件

df = pd.read_excel(‘文件名.xlsx‘)

3、如何从MySQL数据库中读取数据

读取数据之前需要安装pymysql模块

# 安装pymysql模块（在终端操作）

pip install pymysql

#安装后，读取操作代码如下：

import pandas as pd

import pymysql# 创建数据库连接conn = pymysql.connect(host=‘‘, user=‘‘, passwd=‘‘, database=‘‘)# 创建游标cursor = conn.cursor()# 写SQL语句sql = "select * from 表名"#读取数据df = pd.read_sql(sql,conn)df.head()# 关闭游标cursor.close()# 关闭连接conn.close()4、如何从网页中读取数据

访问网页时需要用到ssl模块，解决证书不受信任问题

import ssl

ssl._create_default_https_context = ssl._create_unverified_context

# 网址

url = ‘http://s.askci.com/stock/a/?reportTime=2019-03-31&pageNum=1‘

#读取网页中表格数据

dfs = pd.read_html(url)

# 二、python清洗数据

‘‘‘

1、如何查找异常

2、如何排除重复

3、如何删除缺失

4、如何补全缺失

5、应用案例

‘‘‘

下面使用待清洗的扑克牌作为示例，来完成以上操作。

import numpy as np

import andas as pd

pd.set_option(‘max_rows‘,10)

df = df.read_excel("待清洗的扑克牌.xlsx")

df

返回结果如下：

数据分析8个具体步骤

数据分析8个具体步骤

1、如何查找异常

在清洗数据之前需要把异常的数据查找出来，观察异常数据特征，然后确定清洗方法。

一般查找数据异常方式：

查找某一列缺失

查找重复的行列

查找某一列的唯一值

#查找花色缺失的行

df[df.花色.isnull()]

数据分析8个具体步骤

# 查找完全重复的行

df[df.duplicated()]

数据分析8个具体步骤

# 查找某一列重复的行

df[df.编号.duplicated()]

数据分析8个具体步骤

#查找牌面所有唯一值

df.牌面.unique()

返回结果如下：

数据分析8个具体步骤

根据常识可以得出，‘30‘为异常值。

#查找牌面包含30的异常值

df[df.牌面.isin([‘30‘])]

数据分析8个具体步骤

2、如何排除重复

使用drop_duplicates()函数，在排除重复后会得到新的返回值。

#排除完全重复的行，默认保留第一行

df.drop_duplicates()

数据分析8个具体步骤

# 按照莫一列排除重复，默认保留第一行

df.drop_duplicates([‘花色‘])

# 按照莫一列排除重复，默认保留最后一行

df.drop_duplicates([‘花色‘]，keep = ‘last‘)

3、如何删除缺失

使用dropna()默认删除包含缺失的行

使用扑克牌中不重复的花色为例

color = df.drop_duplicates([‘花色‘])

#删除花色缺失的行

color.dropna()

#删除整行全部为空的行，需要指定how参数

color.dropna(how=‘all‘)

#删除包含缺失值的列

color.dropna(axis = 1)

4、如何补全缺失

# 使用fillna()函数可以将缺失值填充成制定的值。

color.fillna(‘joker‘)

数据分析8个具体步骤

# 使用临近值填充需要指定method参数

#用后面的值填充

color.fillna(method= ‘bfill‘)

数据分析8个具体步骤

# 按字典填充

# 先制定一个缺失值

color.loc[2,‘牌面‘] = np.nan

color

数据分析8个具体步骤

数据分析8个具体步骤

#按列自定义补全缺失值

color.fillna({‘花色‘：0，‘牌面‘：1})

数据分析8个具体步骤

5、应用案例

import numpy as np

import pandas as pd

# 设置最多显示10行

pd.set_option(‘max_rows‘,10)

#从Excel文件中读取原始数据

df = pd.read_excel(‘待清洗的扑克牌‘.xlsx)

#补全缺失值

df = pd.fillna(‘joker‘)

#排除重复值

df = pd.drop_duplicates()

# 修改异常值

df.loc[4,‘牌面‘] = 3

# 增加一张缺少的牌

df = df.append({‘编号‘：4,‘花色‘：‘黑桃♠‘,‘牌面‘:2},ignore_index = True)

#按编号排序

df = df.sort_values(‘编号‘)

# 重置索引

df = df.reset_index()

# 删除多余的列

df = df.drop([‘index‘],axis = 1)

#清洗好的数据保存到excel文件中

df.to_excel(‘清洗好的扑克牌‘.xlsx，index = False)

df

数据分析8个具体步骤

上图为完整的扑克牌数据。

数据分析大数据 pymysql python

探索世界改变世界

0 关注 0 粉丝 0 动态

相关推荐

3000字！5大SQL数据清洗方法！

日常工作中，分析师会接到一些专项分析的需求，首先会搜索脑中的分析体悉，根据业务需求构建相应的分析模型，根据模型填充相应维度表，这些维度特征表能够被使用的前提是假设已经清洗干净了。前两天在Towards Data Science上看到一篇文章，讲的是用Pan

茄肥猫的窝 2020-10-29

干货！做数据分析应该掌握的5个SQL数据清洗方法

日常工作中，分析师会接到一些专项分析的需求，首先会搜索脑中的分析体系，根据业务需求构建相应的分析模型，根据模型填充相应维度表，这些维度特征表能够被使用的前提是假设已经清洗干净了。前两天在Towards Data Science上看到一篇文章，讲的是用Pan

kkbb 2020-10-27

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

SQL和Python几乎是当前数据分析师必须要了解的两门语言，它们在处理数据时有什么区别?本文将分别用MySQL和pandas来展示七个在数据分析中常用的操作，希望可以帮助掌握其中一种语言的读者快速了解另一种方法!在阅读本文前，你可以访问下方网站下载本文使

gallon00 2020-10-16

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 2020-11-16

为了下个项目的质量！每个数据科学家都应该学会这两种工具

使用机器学习模型越久，就越能意识到，正确了解模型当下的运行目的及效果有多重要。在实践中，即便是在最佳情况下，跟踪模型的运行情况都十分繁琐。大多数情况下，我都会构建自己的工具来调试和分析机器学习模型。为了更好地利用时间和资源，我决定使用一系列可用的在线工具来

aiwozhiai 2020-10-06

阿里达摩院发布AI EARTH，全球首次实现多源对地观测数据分析

9月18日，2020云栖大会上，达摩院发布首个泛自然资源行业AI引擎AI EARTH，首次实现对天、空、地多源数据精准分析的能力，可清晰记录分析地球每一寸土地变化，大到山川植被湖泊面积变化、小到农作物生长情况，都能快速、精准分析。据介绍，AI EART

HashData0 2020-09-18

无需GPT-3！国外小哥徒手开发Text2Code，数据分析代码一键生成

近日，两个外国小哥Kartik Godawat 和 Deepak Rawat 开发了一个 Jupyter 插件Text2Code，可以将自然语言查询转换成相关的 Python 数据分析代码。如果能创建一个桌面软件，将自然语言直接转换成相关的 Python

GooTal 2020-09-16

会机器学习就够了？下一代数据科学家群体走向“全栈”！

数据科学一直是个引人注目的领域，尤其是对于那些有计算机科学、统计、业务分析、工程管理、物理、数学等学科背景的年轻人。但雾里看花始终看不清晰，人们总是认为数据科学背后有许多神秘的地方，觉得它不仅仅是机器学习和统计。除了研究助理和实习之外，没有任何全职行业经验

qiujiahao 2020-09-15

学Python就能做好数据分析？万能语言背后是一片韭菜地

在铺天盖地广告的洗脑下，让很多想要学习数据分析或者已经从事数据分析的人产生了这样的疑问：python真的很厉害吗?

Dimples 2020-09-15

低代码为AI降低准入门槛

多年来，主流开发人员一直在使用低代码方法来构建业务和消费者应用软件，这在很大程度上构成了AI界低代码方法的基础。据Veritone的产品高级副总裁Kfir Yeshayahu表示，这些低代码技术在AI界受到追捧。他说，近来对快速AI开发的需求日益增长，尤

qiujiahao 2020-09-11

Pandas这样来设置，做数据分析舒适百倍

在日常使用pandas的过程中，由于我们所分析的数据表规模、格式上的差异，使得同样的函数或方法作用在不同数据上的效果存在差异。而pandas有着自己的一套「参数设置系统」，可以帮助我们在遇到不同的数据时灵活调节从而达到最好的效果，本文就将介绍pandas中

wangquannuaa 2020-08-30

10 个加速Python数据分析的简单的小技巧

一些小的技巧在编程领域可能会非常有用，在数据科学领域同样如此。数据科学爱好者 Parul Pandey 在近日发表了一篇博文，分享了在数据科学中非常实用的 10 个小技巧。有时候，一点小小的黑客行为可以节省时间，挽救生命。一个小小的快捷方式或附加组件有时

逍遥友 2020-08-21

推荐这块拖拉拽报表工具，超好用！

由资深BI厂商自主开发的智能BI工具操作简单，会拖拉拽就能做BI报表，会点击就能应用智能数据分析功能去分析挖掘数据。在Smartbi这款智能BI工具上做数据分析，无论是数据匹配、分析、挖掘还是可视化呈现都能在系统内部自动实现，使用者唯一需要做的也就是给发出

nxcjh 2020-08-17

Python数据分析Numpy库常用函数详解，提到循环就该想到的库

Python进行数据分析的核心库肯定是Pandas，该库差不多可以解决结构化数据的绝大部分处理需求。在《Python数据分析常用函数及参数详解，可以留着以备不时之需》一文中也已经对该库的常用函数进行了详细介绍。但是Pandas是构建在Numpy的基础之

CodeAsWind 2020-08-17

Python数据分析实战，小费数据集应用

本节选用的是Python的第三方库seaborn自带的数据集，该小费数据集为餐饮行业收集的数据，其中total_bill为消费总金额、tip为小费金额、sex为顾客性别、smoker为顾客是否吸烟、day为消费的星期、time为聚餐的时间段、size为聚餐

BMUranus 2020-08-16

超能力加持！用Python增强Excel的3大集成方法及用途

没有人能躲过Microsoft Excel ——你要不就很爱它，要不就是很讨厌它。也许在大学毕业之前，Excel只是考试周才会见几面的朋友，关系仅限脸熟。但当工作进入企业之后，你会发现假如Excel消失一个小时，整个世界就会停止运转!Excel几乎无所不

zlfing 2020-08-16

超能力加持！用Python增强Excel的3大集成方法及用途

本文转载自公众号“读芯术”。没有人能躲过Microsoft Excel ——你要不就很爱它，要不就是很讨厌它。也许在大学毕业之前，Excel只是考试周才会见几面的朋友，关系仅限脸熟。但当工作进入企业之后，你会发现假如Excel消失一个小时，整个世界就会停

wordmhg 2020-08-16

Python数据分析实战项目介绍

Python 语言是数据分析领域最常用的编程语言，因此本文将向大家介绍一个Python数据分析实战项目，学完这个项目大家可以使用 Pandas 进行数据准备、清洗、整理、计算与可视化，以及掌握最主流的数据可视化框架Seaborn和Echarts，并利用Bo

Cocainebai 2020-08-15

企业BI智能大屏，除了页面炫酷，还能带来什么？

当我们一谈到可视化大屏，超大画面、超强科技感、酷炫的呈现效果就会出现在我们的脑海中。所谓数据可视化，就是通过图表、图形、地图等视觉元素，将数据中所蕴含的信息的趋势、异常和模式展现出来。与传统报表相比，BI智能大屏可以让数据更加直观，便于快速接收分析。BI智

子昊的茶会 2020-08-04

Smartbi数据分析工具处理大数据性能如何？

Smartbi支持多种数据源轻松接入，基本涵盖了市面上所有主流的数据库。无可否认多元的数据连接能力使Smartbi能快速连接现有数据源，构建统一的数据分析平台。但在项目实施过程中，往往会遇到以下的问题：。数据库可能是分布在不同实例和不同的主机上，join关

天涯莺歌 2020-08-03

探索世界改变世界

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号