数据挖掘初试

DataCastle

2013-03-23

关注关注

最近在学习python，也看到了python在数学计算方面的优势，特别是numpy和scipy的强大，恰好看到一个数据分析的题目，想拿来练练手。开始做了之后，光顾着解决问题了，没有使用python，反而使用了SPSS来解决的。

一、数据材料

手头有的数据包括了两个csv格式的数据集，分别是6000多条的training data和2000多条的validate data

二、处理思路

1、数据清理

A、在training data中一共有14个自变量属性和2个因变量属性，其中在12个自变量属性中有5个是在validate data中不存在的，所以这5个属性可以清理掉；training data中剩下的7个属性中有2个属性列的值都是一样的，也就是说这两列属性的值不会对因变量造成影响，因此也可以清理掉。

B、在剩下的记录中，存在一些记录某些属性缺失的情况，也存在一些属性值个性化太强，这些数据也清理掉。

2、数据转换

A、在training data剩下分析的属性中，有两列的取值是枚举类型的，且是字符串，因此可以将这些值进行数值化转换。

B、再观察剩下的数据，发现列与列之间的大小差异太大，因此需要进行归一化处理。通常的归一化处理函数包括以下三种：

线性归一化函数：y=(x - min)/(max-min)，但是这种归一化函数不是一个等价平移变化，因为不能保证validate data中的min和max也在此范围内。

底数函数归一化：y=log10(x)，这种要求x的取值范围都大于0

反正切归一化：y=atan(x)*2/pi，这个是我使用的归一化函数。

3、回归拟合

A、因为是多个变量，因此首先想到的是多因子线性回归，使用SPSS很容易做到这点，但是做出来效果不是很多，R为0.330。在进行多因子线性拟合的时候，也尝试过进入、逐步、删除、向后、向前等方式，得出来的R值都没有大于0.330的，大多数都是在0.328~0.329之间变换。

B、也观察过数据，尝试看看数据之间有没有相关性，但是无论是皮尔森相关性还是sig单测，都没有看出来有强相关性，相关性矩阵的数值都是在0.4以下。

三、其他思路

一个新手，我能想到的都想到了，基本上是Google着SPSS使用指南和统计学理论来做的，非线性回归太难，无从下手，现在想想，还剩下的思路就是在数据清洗的时候，清理的粒度不够大。可以找个时间再清洗一下，去掉一下噪点试试。

大数据归一化 data

安科网

数据挖掘初试

DataCastle

DataCastle

相关推荐

docker容器与宿主机的数据交互方式总结

分布式文档存储数据库之MongoDB备份与恢复的实践详解

分布式文档存储数据库之MongoDB分片集群的问题

详解Vue数据驱动原理

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

THINKPHP5分页数据对象处理过程解析

需要知识的后深度学习时代，如何高效自动构建知识图谱

人工智能技术如何落地交通出行？

将云技术带入数据中心-走向数据驱动型业务的旅程

联想持续发力智能物联，构建新基建时代下的行业新引擎

数据科学面试中应了解的十种机器学习概念

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

雾计算在物联网中的应用

AI格局正在从“数据”转变为“知识”

SAP AMDP介绍 - ABAP托管的HANA数据库过程

数据骗子无处不在，教你拆穿所谓“万金油”

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

DataCastle