使用sklearn和Pandas进行特征选择

CYJ0go

2019-02-11

特征选择是执行任何机器学习任务时的首要和重要步骤之一。数据集中的特征表示列。当我们得到机器学习数据集时，不一定每列（特征）都会对输出变量产生影响。如果我们在机器学习模型中添加这些不相关的特征，它将使模型变差（Garbage In Garbage Out）。这就需要进行特征选择。

在Pandas中实现特征选择时，数值特征和分类特征是不同的。在这里，我们将首先讨论数字特征选择。因此，在实现以下方法之前，我们需要确保DataFrame仅包含数字特征。此外，本文还将讨论回归问题的方法，即输入变量和输出变量都是连续的。

特征选择可以通过多种方式完成，大致有3类：

Filter方法
Wrapper方法
Embedded方法

关于数据集：

我们将使用内置的Boston数据集，可以通过sklearn加载。我们将使用上面列出的方法为预测“MEDV”列的回归问题选择特征。在以下Python代码中，我们将导入所有必需的Python库并加载机器学习数据集。

#importing libraries
from sklearn.datasets import load_boston
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
%matplotlib inline
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import RFE
from sklearn.linear_model import RidgeCV, LassoCV, Ridge, Lasso
#Loading the dataset
x = load_boston()
df = pd.DataFrame(x.data, columns = x.feature_names)
df["MEDV"] = x.target
X = df.drop("MEDV",1) #Feature Matrix
y = df["MEDV"] #Target Variable
df.head()

使用sklearn和Pandas进行特征选择

1.Filter方法：

顾名思义，您过滤并仅采用相关特征的子集。选择特征后即可构建模型。这里的过滤是使用相关矩阵完成的，最常用的是Pearson相关。

在这里，我们将首先绘制Pearson相关热图，并查看自变量与输出变量MEDV的相关性。我们只选择具有高于0.5（取绝对值）的相关性的特征与输出变量。

2.Wrapper方法：

Wrapper方法需要一种机器学习算法，并将其性能作为评价标准。这意味着，您将这些特征提供给所选的机器学习算法，并根据机器学习模型性能添加/删除这些特征。这是一个迭代的和计算昂贵的过程，但它比Filter方法更准确。

有不同的Wrapper方法，如后向消除（Backward Elimination），前向选择（Forward Selection），双向消除（Bidirectional Elimination）和RFE。我们将在这里讨论后向消除和RFE。

后向消除

顾名思义，我们首先将所有可能的特征提供给模型。我们检查模型的性能，然后逐个迭代地删除性能最差的特征，直到模型的整体性能达到可接受的范围。

此处用于评估特征性能的性能指标是pvalue。如果pvalue高于0.05，那么我们删除该特征，否则我们保留它。

我们将首先在这里运行一次迭代，这只是得到一个概念的想法，然后我们将在循环中运行相同的代码，这将给出最终的一组特征。在这里我们使用OLS模型代表“普通最小二乘法”。该模型用于执行线性回归。

#Adding constant column of ones, mandetory for sm.OLS model
X_1 = sm.add_constant(X)
#Fitting sm.OLS model
model = sm.OLS(y,X_1).fit()
model.pvalues

使用sklearn和Pandas进行特征选择

我们可以看到变量'AGE'的最高p值为0.9582293，大于0.05。因此，我们将删除此特征并再次构建机器学习模型。这是一个迭代过程。这种方法在下面实现，它将给出最终的变量集，即CRIM，ZN，CHAS，NOX，RM，DIS，RAD，TAX，PTRATIO，B和LSTAT。

#Backward Elimination
cols = list(X.columns)
pmax = 1
while (len(cols)&gt;0):
 p= []
 X_1 = X[cols]
 X_1 = sm.add_constant(X_1)
 model = sm.OLS(y,X_1).fit()
 p = pd.Series(model.pvalues.values[1:],index = cols) 
 pmax = max(p)
 feature_with_p_max = p.idxmax()
 if(pmax&gt;0.05):
 cols.remove(feature_with_p_max)
 else:
 break
selected_features_BE = cols
print(selected_features_BE)

使用sklearn和Pandas进行特征选择

Output:

['CRIM', 'ZN', 'CHAS', 'NOX', 'RM', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']

RFE（递归特征消除）

递归特征消除（RFE）方法通过递归地移除属性并在剩余的属性上构建模型来工作。它使用精度度量来根据特征的重要性对特征进行排名。RFE方法将要使用的模型和所需特征的数量作为输入。然后它给出了所有变量的排名，1是最重要的。True是相关特征而False是不相关特征。

model = LinearRegression()
#Initializing RFE model
rfe = RFE(model, 7)
#Transforming data using RFE
X_rfe = rfe.fit_transform(X,y) 
#Fitting the data to model
model.fit(X_rfe,y)
print(rfe.support_)
print(rfe.ranking_)

使用sklearn和Pandas进行特征选择

Output:

[False False False True True True False True True False True False True]

[2 4 3 1 1 1 7 1 1 5 1 6 1]

这里我们采用了具有7个特征的LinearRegression模型，RFE给出了如上所述的特征排名，但是数字'7'的选择是随机的。现在我们需要找到最佳数量的特征（其准确度最高）。我们通过usig循环从1个特征开始，然后到13个。然后我们选择准确度最高的那个。

#no of features
nof_list=np.arange(1,13) 
high_score=0
#Variable to store the optimum features
nof=0 
score_list =[]
for n in range(len(nof_list)):
 X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.3, random_state = 0)
 model = LinearRegression()
 rfe = RFE(model,nof_list[n])
 X_train_rfe = rfe.fit_transform(X_train,y_train)
 X_test_rfe = rfe.transform(X_test)
 model.fit(X_train_rfe,y_train)
 score = model.score(X_test_rfe,y_test)
 score_list.append(score)
 if(score&gt;high_score):
 high_score = score
 nof = nof_list[n]
print("Optimum number of features: %d" %nof)
print("Score with %d features: %f" % (nof, high_score))

使用sklearn和Pandas进行特征选择

Output:

Optimum number of features: 10

Score with 10 features: 0.663581

从上面的Python代码可以看出，最佳的特征数量为10.我们现在将10个特征数量提供给RFE，并获得RFE方法给出的最终特征集，如下所示：

cols = list(X.columns)
model = LinearRegression()
#Initializing RFE model
rfe = RFE(model, 10) 
#Transforming data using RFE
X_rfe = rfe.fit_transform(X,y) 
#Fitting the data to model
model.fit(X_rfe,y) 
temp = pd.Series(rfe.support_,index = cols)
selected_features_rfe = temp[temp==True].index
print(selected_features_rfe)

使用sklearn和Pandas进行特征选择

Output:

Index(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'DIS', 'RAD', 'PTRATIO', 'LSTAT'], dtype='object')

3.Embedded方法

Embedded方法在某种意义上是迭代的，它负责模型训练过程的每次迭代，并仔细提取对特定迭代的训练贡献最大的那些特征。正则化方法是最常用的Embedded方法，其在给定系数阈值的情况下惩罚特征。

在这里，我们将使用Lasso正则化进行特征选择。如果该特征无关紧要，则套索会对其系数进行处罚并使其为0.因此，系数= 0的特征将被删除。

reg = LassoCV()
reg.fit(X, y)
print("Best alpha using built-in LassoCV: %f" % reg.alpha_)
print("Best score using built-in LassoCV: %f" %reg.score(X,y))
coef = pd.Series(reg.coef_, index = X.columns)

使用sklearn和Pandas进行特征选择

print("Lasso picked " + str(sum(coef != 0)) + " variables and eliminated the other " + str(sum(coef == 0)) + " variables")

使用sklearn和Pandas进行特征选择

imp_coef = coef.sort_values()
import matplotlib
matplotlib.rcParams['figure.figsize'] = (8.0, 10.0)
imp_coef.plot(kind = "barh")
plt.title("Feature importance using Lasso Model")

使用sklearn和Pandas进行特征选择

这里的Lasso模型已经采用了除NOX，CHAS和INDUS之外的所有特征。

结论：

我们了解了如何为数值数据使用多种方法选择特征，并比较了它们的结果。现在出现了在什么情况下选择哪种方法的困惑。以下几点将帮助你做出这个决定：

Filter方法不太准确。它在做EDA时很棒，它也可以用于检查数据中的多重共线性。
Wrapper和Embedded方法可以提供更准确的结果，但由于它们的计算成本很高，因此这些方法适用于较少的特征（~20）。

pandas 机器学习特征选择

安科网

使用sklearn和Pandas进行特征选择

CYJ0go

关于数据集：

1.Filter方法：

2.Wrapper方法：

RFE（递归特征消除）

3.Embedded方法

结论：

CYJ0go

相关推荐

教你几招，Pandas轻松处理超大规模数据

秒懂！图解四个实用的Pandas函数！

Python 中利用Pandas处理复杂的Excel数据

不常见的Pandas小窍门：我打赌一定有你不知道的

在pandas中利用hdf5高效存储数据

别找了，这是Pandas最详细教程了

Pandas这样来设置，做数据分析舒适百倍

高效的10个Pandas函数，你都用过了吗？

10 个加速Python数据分析的简单的小技巧

Pandas

Pandas闪回咒！如何在Python中重写SQL查询？

高效的10个Pandas函数，你都用过吗？

推荐5个实用的Pandas技巧

pandas 一维台账数据与二维表格数据的转换

用于ETL的Python数据转换工具

pandas 的DataFrame.apply()

【Pandas】基本功能

【pandas】概述

数据分析三剑客之Pandas时间序列

初探pandas——索引和查询数据

CYJ0go