Spark学习(十四):四个应用库之MLlib和GraphX

1. MLlib:

它是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。MLlib 目前支持四种常见的机器学习问题:二元分类,回归,聚类以及协同过滤,同时也包括一个底层的梯度下降优化基础算法。具有如下特点:

1)易用性:可以使用JAVA、Scala、Python接口

2)高性能:比MR快100+倍

3)快速部署:可以运行在已经安装好的Hadoop 2.0 集群上

2. GraphX:

它是一个分布式图处理框架,基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。具有如下特点:

1)灵活性:图表和集合可以无缝衔接

2)高性能:比其他图处理软件处理快

3)算法种类多:提供更多的图算法


Spark学习(十四):四个应用库之MLlib和GraphX

相关推荐