机器学习：葡萄酒质量预测模型教程

stevenkwong

2018-08-27

关注关注

本文介绍如何利用机器学习模型根据各种特征预测葡萄酒质量。从这里下载分析数据集。

葡萄酒数据集包含以下特征：

Input variables (based on physicochemical tests):

fixed acidity, volatile acidity, citric acid, residual sugar,

chlorides,free sulfur dioxide,total sulfur dioxide,density,

pH,sulphates, alcohol

Output variables:

quality (score between 0 and 10)

首先通过导入所需的Python库并加载白葡萄酒和红葡萄酒的csv文件来加载两个数据集。

#import the libraries

import pandas as pd

import numpy as np

import seaborn as sns

import matplotlib.pyplot as plt

# load the files

df_red = pd.read_csv(“winequality-red.csv”, sep=”;”)

df_white = pd.read_csv(“winequality-white.csv”, sep=”;”)

将这两个dataframes 合并起来分析。Python代码如下：

df = pd.concat([df_red, df_white], axis=0)

检查是否有任何空列

df.isnull().sum()

fixed acidity 0

volatile acidity 0

citric acid 0

residual sugar 0

chlorides 0

free sulfur dioxide 0

total sulfur dioxide 0

density 0

pH 0

sulphates 0

alcohol 0

quality 0

找出输出(质量)变量与所有输入变量之间的相关性，Python实现如下：

# identify the correlation

plt.subplots(figsize=(20,15))

corr = df.corr()

sns.heatmap(corr,square=True, annot=True)

机器学习：葡萄酒质量预测模型教程

一些如酒精，柠檬酸，游离二氧化硫，pH值呈正相关，质量会有所改善，而密度，残糖和酸度会对质量产生负面影响。

让我们确定前6个相关特征。Python代码如下：

# pick the top 6 highly correlating columns

cols = corr.nlargest(6, ‘quality’)[‘quality’].index

corrcoef = np.corrcoef(df[cols].values.T)

# correlation plotted against the top columns

plt.subplots(figsize=(20,15))

corr = df.corr()

sns.heatmap(corrcoef,square=True, annot=True, xticklabels= cols.values, yticklabels=cols.values)

机器学习：葡萄酒质量预测模型教程

通过绘制直方图来分析数据的分布

机器学习：葡萄酒质量预测模型教程

使用机器学习中的sklearn库，将数据集拆分为测试和训练数据集，我使用了20％的数据作为测试数据集。Python代码如下：

y = df[“quality”]

X = df.drop(“quality”, axis=1)

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

由于不同的列具有不同的值，因此您需要归一化值以获得准确的预测结果。我在这里使用StandardScaler库。您也可以使用MinMaxScaler方法。

机器学习：葡萄酒质量预测模型教程

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

X_train = scaler.fit_transform(X_train)

X_test = scaler.fit_transform(X_test)

现在，我将根据各种算法拟合我的训练数据，并根据测试值确定预测输出的准确性。Python实现如下：

from sklearn.metrics import accuracy_score, confusion_matrix

from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression()

logreg.fit(X_train, y_train)

pred_logreg = logreg.predict(X_test)

accuracy = accuracy_score(pred_logreg, y_test)

print("Logreg Accuracy Score %.2f" % accuracy)

cm = confusion_matrix(pred_logreg, y_test)

knn = KNeighborsClassifier(n_neighbors=1)

knn.fit(X_train, y_train)

pred_knn = knn.predict(X_test)

accuracy = accuracy_score(pred_knn, y_test)

print("Knn Accuracy Score %.2f" % accuracy)

from sklearn.svm import SVC

svc = SVC()

svc.fit(X_train, y_train)

pred_svc =svc.predict(X_test)

accuracy = accuracy_score(pred_svc, y_test)

print("SVC Accuracy Score %.2f" % accuracy)

dtree = DecisionTreeClassifier()

dtree.fit(X_train, y_train)

pred_tree =dtree.predict(X_test)

accuracy = accuracy_score(pred_tree, y_test)

print("DTree Accuracy Score %.2f" % accuracy)

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier()

rf.fit(X_train, y_train)

pred_rf =rf.predict(X_test)

accuracy = accuracy_score(pred_rf, y_test)

print("Random Forest Accuracy Score %.2f" % accuracy)

我尝试了各种算法，包括Logistic回归，决策树，随机森林，KNN和SVC。

随机森林为我提供更好的准确性（64％）

Logreg Accuracy Score 0.53

Knn Accuracy Score 0.62

SVC Accuracy Score 0.57

DTree Accuracy Score 0.55

Random Forest Accuracy Score 0.64

将前10条记录的测试数据与预测数据进行比较，结果表明，其中有2条记录的质量预测与测试结果不同

机器学习：葡萄酒质量预测模型教程

葡萄酒预测模型 python机器学习

stevenkwong

0 关注 0 粉丝 0 动态

关注关注

GAN网络通俗解释（图画版）

在本教程中，你将了解什么是生成敌对网络，并且在整个过程中不涉及负责的数学细节。之后，你还将学习如何编写一个可以创建数字的简单GAN！假设有一家商店它们从顾客那里购买某些种类的葡萄酒，用于以后再销售。在这种情况下，店主必须能够区分假酒和正品葡萄酒。这意味着店

CSDNyun 2019-06-27

用Keras Functional API和TensorFlow预测葡萄酒的价格

我们能否从其描述和品种中预测一瓶葡萄酒的价格？这个问题非常适合广泛深入的学习，因为它涉及文本输入，葡萄酒的描述和价格之间没有明显的相关性。我们不能确定地说葡萄酒中描述的“fruity”一词更昂贵，或者“soft tannins”的葡萄酒更便宜。它酸甜而浓郁

zhongkeli 2018-04-24

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

本文作者是一名地地道道的程序员，最大的乐趣就是爬各种网站。特别是在过去的一年里，为了娱乐和利润而爬掉了无数网站。从小众到主流电子商店再到新闻媒体和文学博客，通过使用简单的工具获得了很多有趣且干净的数据—我也很喜欢Chrome 的Headless模式。本文，

xinhao 2017-12-07

酒知识-看完你会因此喜欢上葡萄酒

你喜欢喝葡萄酒吗，相信很多人都有自己在家里动手酿制过葡萄酒。那你知道葡萄酒具体有什么功效吗，今天黄老师给大家分享一下：。因此，经常饮用适量葡萄酒具有防衰老、益寿延年的效果。甜白葡萄酒含有山梨醇，有助消化，防止便秘。美国科学家最近了现，葡萄酒里含有一种可预防

知味 2018-01-09

红葡萄酒抗衰老? 怎么喝最健康?

红葡萄酒抗衰老?酒的种类有很多，葡萄酒是属于比较受欢迎的一种。最新的研究发现，红葡萄酒中含有一种叫做白藜芦醇的营养，这种物质在试验中能够抵抗衰老的作用。然而研究者表示，白藜芦醇存在在人体里面可能会出现不安全的情况，因此用葡萄酒抗衰老可能会让人失望。其实研究

雅趣 2018-01-07

亚马逊关闭旗下葡萄酒网站催生新型葡萄酒直销网站

腾讯科技讯在去年斥资 137 亿美元收购全食超市的交易完成之后，因业务重叠，亚马逊日前关闭了旗下的葡萄酒销售网站Woot.Wine，以及自有的亚马逊葡萄酒市场。Woot.com创办于 2004 年，是首批推出“一天团购一次”理念的网站之一，即每日销售一款

设计奇葩说 2018-01-03

知道你柜子里值几千块的白酒能放多久么？马上告诉你答案！

一般来说，啤酒的保质期为3个月，开了瓶子之后，当天就必须喝完；红酒和葡萄酒的保质期相对较长，一般的干红葡萄酒可以存放10年左右；而对于白酒则需要看厂家和白酒的酒精度，知名的酒厂生产的40度以上的白酒时间存放久一点也没有问题。如果小酒厂生产的白酒有的会添加香

女神进化论 2018-01-02

不得不知的葡萄酒知识: 不要在用这3点来购买葡萄酒了

很多酒友在买葡萄酒时都会有自己的一些小技巧或者方法，但有些并不一定就是正确的。小智在智诚和酒行就发现很多酒友会用到以下这几个误区来选择葡萄酒。木塞和螺旋盖的使用目的不同，木塞是为了让葡萄酒在瓶中能更好的缓慢熟化，而螺旋盖更多是为了保留葡萄酒的果香和出厂时的

政见CNPolitics拆掉知识的高墙 2017-12-20

在家自酿的葡萄酒能喝吗?

葡萄酒象征着浪漫，葡萄酒代表着健康。虽然葡萄酒起源于国外，但随着人们生活水平的提高，随着国人对葡萄酒认识的加深，如今在我们的身边它也成为了人们生活中如因随从的好伙伴。更值得高兴的是随着人们对葡萄酒越来越熟悉，如今我们不但学会了如何品鉴葡萄酒，而且还经常尝试

企鹅和猫 2017-12-07

软木塞的发展历史软木塞的制作过程

软木塞的发展历史，近年来，中国葡萄酒行业发展迅速，但对于被称为“葡萄酒生命卫士”的软木塞却很少有人去研究。今天中木商网小编就来扒一扒红酒软木塞的前世今生，让大家清晰的了解葡萄酒的背后的守护者。在很早很早以前，全球葡萄酒大多数都是按一桶一桶来卖。直至2016

试饮笔记 2017-12-07

1919变相加价出售稀缺茅台借热度强制搭售其他产品

利用茅台一货难求，国内最大酒类垂直电商1919强制搭售中高档葡萄酒产品，变相加价出售飞天茅台。事实上，今年以来，飞天茅台频繁出现断货现象，致使茅台在1919的整体销售中占比大幅度下降。业内人士认为，1919对飞天茅台实行强制搭售，或意图通过飞天茅台对其他产

BitTigerio 2017-12-04

没有中文的葡萄酒都是假进口葡萄酒的功效

红酒作为一种饮品是直接通过口腔进入身体的，如果红酒的质量有问题，那长期的饮用，就会对健康产生很大的伤害，所以，喝红酒一定要非常的谨慎，除了选择正规的进口红酒之外，还要注意喝红酒的方法，红酒虽好，也不能贪杯。红酒可以杀灭细菌和病毒，对于抗感冒也有一定的功效。

企鹅和猫 2017-12-02

1号店商家涉嫌出售假Penfolds：无防伪进口商疑背锅

奔富再次被推上了风口浪尖。近日，国内培训机构上海斯享文化传播有限公司在其公众号发文称，在1号店疑似买到假奔富，交涉维权无果，希望为消费者“多做一丝警醒”。对此，葡萄酒财经进行了调查。6月19日，上海斯享文化传播有限公司发文表示：6月3、4日，在WSET2级

W3C CSS 2017-06-21

关于红酒的讲究红酒与酒杯等相关说明

有人说，喝红酒，内心能滋生像琥珀一样诱人的光泽，在品酒的欢乐中，生活变得明亮而醇美。阳光灿烂的下午，约三两好友，开一瓶红酒，坐在一处能感受到光线的地方，或畅谈人生，或只是无意识的闲聊。品红酒作为一种时尚的生活方式，越来越受到都市白领的欢迎。在杭州，有这么一

BAT 批处理程序 2017-04-11

红葡萄酒的饮用方法与注意事项

通常情况下“白酒配海鲜，红酒配肉类”是用餐饮酒的规则；但只要不是十分严格而正式的场合，主人完全可以根据客人的喜好来选择酒款。大部分的红酒适合于在较低的室温下饮用。很多人并不管主菜是什么，仅仅因为个人喜好而一直选择红酒。而勃艮第所产的红酒，口味浓郁，一般不太

BAT 批处理程序 2017-04-11

安科网

机器学习：葡萄酒质量预测模型教程

stevenkwong

stevenkwong

相关推荐

GAN网络通俗解释（图画版）

用Keras Functional API和TensorFlow预测葡萄酒的价格

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

酒知识-看完你会因此喜欢上葡萄酒

红葡萄酒抗衰老? 怎么喝最健康?

亚马逊关闭旗下葡萄酒网站催生新型葡萄酒直销网站

知道你柜子里值几千块的白酒能放多久么？马上告诉你答案！

不得不知的葡萄酒知识: 不要在用这3点来购买葡萄酒了

在家自酿的葡萄酒能喝吗?

软木塞的发展历史软木塞的制作过程

1919变相加价出售稀缺茅台借热度强制搭售其他产品

没有中文的葡萄酒都是假进口葡萄酒的功效

1号店商家涉嫌出售假Penfolds：无防伪进口商疑背锅

关于红酒的讲究红酒与酒杯等相关说明

红葡萄酒的饮用方法与注意事项

stevenkwong