Pandas数据清洗方法

zhangxiaojiakele

2020-05-26

一.重复值处理：直接删除为主。一般先处理重复行，再处理唯一值列。

以行为单位，查看重复值

df[df.duplicated()]

以行为单位，删除重复值

df.drop_duplicates()

以某列(如ID）为单位，查看重复值

df[df.duplicated(‘ID‘)]

以某列(如ID）为单位，删除重复值

df.drop_duplicated(‘ID‘)

二.缺失值处理：主要根据业务经验填补。

少于20%的连续变量用均值、中位数填补，分类变量用众数填补，也可以不用填补单算一类；

20%-80%填补或者生产指示哑变量；

80%以上，使用指示哑变量，不使用原始变量。

查看缺失比例情况

df.apply(lambda x:sum(x.isnull())/x.size)

以指定值填补(均值、中位数、众数)

df[‘col‘].fillna(df[‘col‘].mean())

df[‘col‘].fillna(df[‘col‘].median())

df[‘col‘].fillna(df[‘col‘].mode()[0])

生产指示哑变量

df[‘col_new‘] = df[‘col‘].isnull().apply(int)

三.离群值处理：离群值会干扰模型结果。单变量用盖帽法、分箱法；多变量用聚类法。

盖帽法：将某连续变量均值上下三倍标准差范围外的记录替换为均值上下三倍标准差;也可以自定义分位数函数。

函数1：

def exclude_extreme(s):# x：pd.Series列，连续变量

mean = s.mean()    sigma = s.std()    ceiling = mean + 3 * sigma    floor = mean - 3 * sigma    s_copy = s.copy()    s_copy[s_copy > ceiling] = ceiling    s_copy[s < s_copy] = floor    return s_copy

函数2：自定义分位数

def cap(x,quantile=[0.01,0.99]):    """    :arg    x：pd.Series列，连续变量    quantile:制定盖帽法的上下分位数范围    """    Q01,Q99 = x.quantile(quantile).values.tolist()    if Q01 > x.min():        x = x.copy()        x.loc[x<Q01] = Q01    if Q99 < x.max():        x.loc[x>Q99] = Q99    return x

分箱法：将离群值包含在箱子中，在进行建模的时候不直接进行到模型中，可以达到处理离群值的目的。

等宽分箱：cut函数，必须输入待分箱的列及分箱个数两个参数，labels可选。下限为列最小值，上限为列最大值，产生一个Cat类的新列，labels可以指定数值或字符串对替代区间值。

pd.cut(df[‘col‘],bins=?,labels=[?,?,?,...])

等深分箱：qcut函数，必须输入待分箱的列及分箱个数两个参数，labels可选。下限为列最小值，上限为列最大值，产生一个Cat类的新列，labels可以指定数值或字符串对替代区间值。

pd.qcut(df[‘col‘],bins=?,labels=[?,?,?,...])

或使用分位数进行分箱，如分为2箱

df[‘col‘].quantile([0,0.5,1]) # 显示最小值，中位值、最大值

pd.cut(df[‘col‘],bins=df[‘col‘].quantile([0,0.5,1]) ,labels=[?,?,?,...],include_lowest=True) # include_lowest=True 表示包含边界最小值。

数据清洗 pandas

zhangxiaojiakele

0 关注 0 粉丝 0 动态

相关推荐

3000字！5大SQL数据清洗方法！

日常工作中，分析师会接到一些专项分析的需求，首先会搜索脑中的分析体悉，根据业务需求构建相应的分析模型，根据模型填充相应维度表，这些维度特征表能够被使用的前提是假设已经清洗干净了。前两天在Towards Data Science上看到一篇文章，讲的是用Pan

茄肥猫的窝 2020-10-29

干货！做数据分析应该掌握的5个SQL数据清洗方法

日常工作中，分析师会接到一些专项分析的需求，首先会搜索脑中的分析体系，根据业务需求构建相应的分析模型，根据模型填充相应维度表，这些维度特征表能够被使用的前提是假设已经清洗干净了。前两天在Towards Data Science上看到一篇文章，讲的是用Pan

kkbb 2020-10-27

让数据处理更简单？百度EasyData推出首个高级智能数据清洗功能

在进行AI模型开发时，数据的数量与质量直接影响模型效果。在实地数据采集之后，企业往往需要从大量数据中筛选出符合训练要求的相关数据，剔除质量差或不相关的数据，这个步骤被称为数据清洗。针对数据清洗这一具体功能，EasyData目前上线了去相似、去模糊、旋转、裁

jinhao 2020-09-07

数据准备2 数据清洗

data = {‘Chinese‘: [66, 95, 93, 90, 80], ‘English‘: [65, 85, 92, 88, 90], ‘Math‘: [30, 98, 96, 77, 90]}. # df1_1[‘English‘]=df1_

lanmantech 2020-07-26

利用正则表达式对网络日志数据进行数据清洗

Matcher.find()表示进行一次匹配，这里只进行了一次匹配也就是只匹配line中的第一个目标串IP地址。通常要获得所有的目标串，应该用while，

一次次尝试 2020-06-25

python学习-数据清洗

data = pd.DataFrame({‘food‘: [‘bacon‘, ‘pulled pork‘, ‘bacon‘, ‘Pastrami‘, ‘corned beef‘, ‘Bacon‘,‘pastrami‘, ‘honey ham‘, ‘nova

柠檬班 2020-05-16

python数据分析学习(8)数据清洗与准备(2)

上个一篇博客讲解了如何进行数据的缺失值处理，本篇就来讲解一下如何进行数据转换的一系列操作。用duplicated方法可以返回一个布尔值Series，找出每一行是否有重复情况。而drop_duplicates返回的是DataFrame，内容是duplicat

winmeanyoung 2020-04-26

数据清洗

数据清洗一是为了解决数据质量问题，二是让数据更加适合做挖掘。数据清洗，是整个数据分析过程中不可缺少的一个环节，其结果质量直接关系到模型效果和最终结论。在实际操作中，数据清洗通常会占据分析过程的50%—80%的时间。在这里，小编跟大家介绍一下数据清洗的步骤

囧芝麻 2020-03-27

scala学习

　　今天没有继续整数据，这个数据还需要进一步的清洗，很麻烦，暂时不想清洗，今天看了一部分spark的内容，在网上查找了一些资料，明天将使用eclipse连接spark进行编程实验，或者进行数据的清洗。

muhongdi 2020-02-03

数据分析03 /基于pandas的数据清洗、级联、合并

数据分析03 /基于pandas的数据清洗、级联、合并。object类型比float在进行运算耗时。测试两种耗时时间：。df.iloc[5,5] = None # 在内部会强转成浮点型。对空值对应的行数据进行删除。df.isnull() # 判断哪

Norsaa 2019-12-12

python实现数据清洗(缺失值与异常值处理)

将本地sql文件写入mysql数据库。本文写入的是python数据库的taob表。其中总数据为9616行，列分别为title,link,price,comment. 使用python链接并读取数据。sql = 'select * from taob'#sq

learnpy 2019-12-02

大数据课堂测试3——数据清洗（1）

代码使用了之前wordcount样例进行修改，按照,进行了简单分割，但是分割后末尾会出现0，且没有进行数据的转换。public static class doMapper extends Mapper<Object, Text, Text, IntW

大白配小猪 2019-11-15

大数据的数据清洗利器是什么呢？

在这篇文章中，我们将引见一种新的关头字搜刮和互换的算法：Flashtext 算法。该算法的工夫复杂度不依托于搜刮或互换的字符的数量。这个算法比我们通俗的正则婚配法快很多，因为正则婚配的工夫复杂度是 O。这个算法和 Aho Corasick 算法也有一点不合

你情我愿 2018-05-29

python数据分析pandas中的DataFrame数据清洗

总结下来为4步：一.使用isnull或notnull筛选：df.isnull().any 二.使用loc取出具体数据：df.loc[df.isnull().any] 三：取出这些数据的索引：df.loc[df.isnull().any]

morexyoung 2019-11-01

利用Python进行数据分析第7章数据清洗和准备

学习时间：2019/10/25 周五晚上22点半开始。学习目标：Page188-Page217，共30页，目标6天学完，每天5页，预期1029学完。实际反馈：X集中学习1.5小时，学习6页。实际XXX学完，耗时N天，M小时。数据准备工作：加载、清理、转换以

duanlove技术路途 2019-10-25

数据分析之用Power Query实现数据转换和清洗（功能操作篇）

凭借 Power Query，可以搜索数据源，创建连接，然后按照可满足你需求的方式调整数据以创建报表。*需要运用Power Query的M函数之一=Excel.Workbook(目标)作用：将Binary列内容转换为Table列。通过多张数据共有的字段，将

chenhui 2019-08-16

机器学习-数据清洗

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~

KaiZhaoKZ 2019-06-29

特征工程&&清洗数据

特征工程将原始数据映射到特征我们在进行机器学习的时候，采用的数据样本往往是矢量，而我们的原始数据并不是以矢量的形式呈现给我们的，这是便需要将数据映射到特征。整数和浮点数映射直接映射便ok. 字符串映射好多时候，有的特征是字符串，比如此前训练的加利福尼亚房产

HappinessSourceL 2019-06-26

41款实用工具：数据获取、清洗、建模、可视化都有了（附链接）

本文介绍各种活动阶段使用的工具和技术，如数据获取、数据清洗、数据管理、建模、模拟和数据可视化。这有助于收集额外要求并测试已提出系统的可行性。数据清洗通常称为数据净化，即其数据从源中删除或更正脏数据的过程。在来自多个数据源的具有异构性质的大型数据库中，数据清

dongnaosenlu 2019-06-13

手把手教你用R处理常见的数据清洗问题（附步骤解析、R语言代码）

本文约5300字，建议阅读10+分钟。本文将介绍数据清洗过程的主要步骤，并通过案例和代码演示如何利用R语言进行数据清洗。R是进行运算、清洗、汇总及生成概率统计等数据处理的一个绝佳选择。此外，由于它独立于平台、短期内不会消失，所以生成的程序可以在任何地方运行

SUNQIQI 2018-06-25

zhangxiaojiakele

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号