Python连续数据离散化处理和pandas.cut函数用法

xusong

2019-05-13

连续数据离散化场景：

数据分析和统计的预处理阶段，经常的会碰到年龄、消费等连续型数值，我们希望将数值进行离散化分段统计，提高数据区分度，那么下面介绍一个简单使用的pandas中的 cut() 方法

函数用法：
**cut(series, bins, right=True, labels=NULL)**

series (类似数组排列，必须是一维的)
bins (表示分段数或分类区间，可以是数字，比如说4，就是分成4段，也可以是列表，表示各段的间隔点)
right=True（表示分组右边闭合，right=False表示分组左边闭合，）
labels(表示结果标签，一般最好添加，方便阅读和后续统计)
另外，请注意：
如果 cut_1 = pd.cut ()
cut_1.codes：获得分组的codes码，即0，1，2，3，4…
pd.value_counts(cut_1): 返回分段计数的结果

如下成绩代码：

离散化大数据分段函数

xusong

0 关注 0 粉丝 0 动态

相关推荐

数据挖掘入门 -

有些数据本身很大，自身无法作为数组的下标保存对应的属性。当数据只与它们之间的相对大小有关，而与具体是多少无关时，可以进行离散化。①原数据：1,999,100000,15；处理后：1,3,4,2；通过使用高层的概念来替代底层的属性值来规约数据。一个假设在训

Norsaa 2019-10-29

主要的数据预处理技术--转载

先通过聚类等方法找出孤立点。这些孤立点可能包含有用的信息。通过构造函数来符合数据变化的趋势，这样可以用一个变量预测另一个变量。将多个数据源中的数据结合起来并统一存储，建立数据仓库的过程实际上就是数据集成。对于给定的数值属性，概念分层定义了该属性的一个离散化

nqmysb 2011-08-25

python数据分析数据标准化及离散化详解

是对原始数据的线性变换，使结果映射到[0,1]区间。方便数据的处理。消除单位影响及变异大小因素影响。离散化是程序设计中一个常用的技巧，它可以有效的降低时间复杂度。其基本思想就是在众多可能的情况中，只考虑需要用的值。离散化可以改进一个低效的算法，甚至实现根本

NJYR 2018-02-26

python决策树之C4.5算法详解

C4.5算法是用于生成决策树的一种经典算法，是ID3算法的一种延伸和优化。C4.5算法对ID3算法主要做了一下几点改进：。通过信息增益率选择分裂属性，克服了ID3算法中通过信息增益倾向于选择拥有多个属性值的属性作为分裂属性的不足；能够处理离散型和连续型的

kunfeifeifei 2017-12-20

JZYZOJ1355 [usaco2007]奶牛赛跑矩阵乘法离散化

写的时候本来想离散化，“1000^2的数组放一两个到函数里而已嘛，指定承受得住”，然后没离散化，然后就爆栈了，第一次知道直接爆栈是不报错的，只会运行之后return value 3221225477，学习了orz。然后重写了一份离散化的……其实我觉得不离散

清醒疯子 2017-11-29

xusong

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号