机器学习之必知开源数据集

机器学习的研究与实现,离不开大数据。知晓通用的开源数据集,一方面可以验证自己算法,而另一方面也可以与其他算法进行比较。

不少开源工具和框架都会含有默认的数据集,使学习者能很快上手。比如scikit-learn就直接支持iris、digits等数据集,通过datasets.load_iris()、datasets.load_digits()就可以直接载入数据进行分析。

除了工具默认支持的数据集外,还有很多知名的开源数据集,供机器学习相关人员使用。

UCI

UCI肯定是最知名的开源数据集(库)之一,它是加州大学欧文分校所维护的一个数据集(库),里面包含373个数据集,并且还在持续增长。数据集的类别也很丰富多样并且归类清晰,有专门针对聚类的数据集,专门针对回归研究的数据集;从数据类型纬度,有文本类型的,有时序相关类型的。
机器学习之必知开源数据集

同时其数据的获取也很简单,直接点击需要的数据集,进入下载页面直接压在压缩包,解压即可使用。数据一般按照特定格式组织成文本形式。

在UCI项目中,最常用的数据集包括iris、wine、soybean、zoo:

  • iris,鸢尾数据集,其包含3个类,每个类50个元素,每个元素有5个属性,用来代表不同的鸢尾花
  • wine,酒水数据库,其中包含3个类,共178个元素,每个元素有3个属性,常用于聚类研究
  • soybean,大豆疾病数据集,其中包含4个类,共47个元素,但每个元素有35个属性
  • zoo,动物园数据集,其中包含7个类,共101个元素,每个元素16个属性

项目地址:http://archive.ics.uci.edu/ml/index.php

GoogleTrends

GoogleTrends开源出来的数据集不一定是非常知名、用途广泛的数据集,但是由于其数据来源于互联网,具有很强的时间感,社会属性,并且也能很快检测算法的准确性,毕竟互联网数据的产生速度要远远大于传统数据。
机器学习之必知开源数据集

该数据集中数据组织形式也非常直接,csv文件,这样无论是人工查看,还是程序处理都非常方便,毕竟现在绝大多数框架都支持直接载入csv文件。

项目地址:http://googletrends.github.io/data/

Kaggle

Kaggle本身是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。而各种机器学习竞赛中用到的数据集则可以在改平台上下载,这对于验证、对比自身算法的优劣大有裨益。
机器学习之必知开源数据集

其中覆盖了分类、回归、排名、推荐系统以及图像分析等各个非常使用的领域,但是不好之处在于有些数据集是收费的

AWS公用数据集

这个数据集是AWS集成的,必须通过AWS API访问的数据集,其中包含了人类基因组项目、Common Crawl网页语料库、维基百科数据和Google BooksNgrams等形形色色的数据集。

使用该数据库最大问题是它默认支持的格式是通过AWS相关的操作,包括建实例等,对于离线分析,或者不想购买云资源的用户来说,不那么方便直接。

项目地址:https://www.taohuayuan178.com

Imagenet

Imagenet是图像领域最出名的数据集之一,各种图像处理相关的算法都会在该数据集上验证其先进性,也有各种研究人员针对该数据集做研究以及优化。
机器学习之必知开源数据集

在深度学习异常火爆的当下,Imagenet也起了非常大的推动作用。深度学习领域大牛Hilton的论文《ImageNet Classification with Deep Convolutional Neural Networks》,其使用的就是Imagenet数据集,后来者们也都纷纷使用该数据集进行算法的研究和优化。

该数据集有1400W图片,涵盖有丰富的类别,带标注数据也超过百万,这使得该数据集在图像处理,定位,检测等研究工作中占据很大的地盘,其机会成为了目前深度学习图像领域算法性能检验的标准数据库。

项目地址:http://www.mhylpt.com/

MINIST

深度学习领域的“Hello World!”,入门必备!MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集,每个样本图像的宽高为28*28。此数据集是以二进制存储的,不能直接以图像格式查看,不过很容易找到将其转换成图像格式的工具。最早的深度卷积网络LeNet便是针对此数据集的,当前主流深度学习框架几乎无一例外将MNIST数据集的处理作为介绍及入门第一教程,其中Tensorflow关于MNIST的教程非常详细。

机器学习之必知开源数据集
项目地址:http://yann.lecun.com/exdb/mnist/

/r/数据集

Reddit的/r/数据集是一个大伙分享、请求的数据集平台,在此平台上能分享、下载甚至讨论大量的数据集,从普通数据集到用于深度分析的数据集,不一而足。

项目地址:https://www.reddit.com/r/datasets/

其他数据集

麻省理工大学人脸识别,http://www.hbs90.cn/ /fddb/

歌曲数据库,http://labrosa.ee.columbia.edu/millionsong/

图像处理COCO,http://mscoco.org/

视频数据集youtube,https://research.google.com/youtube8m/

此外,还有大量的针对某个领域的数据集,比如图像分隔、地质数据、政府数据等等,不一而足。

相关推荐