MapReduce学习(九):常见压缩算法简介

1. Hadoop压缩数据的优势:

压缩的数据使用较少的带宽。

压缩的数据使用较少的磁盘。

加速数据在磁盘和网络上的传输。

降低成本。

2. Hadoop支持的一般算法:

LZO Gzip Bzip2 LZ4 Snappy

各个算法对比如下:

MapReduce学习(九):常见压缩算法简介

3. 压缩算法效率比较

MapReduce学习(九):常见压缩算法简介

算法对比总结:

gzip是普通的压缩器,bzip压缩性能好于gzip但速度慢,LZO由很多小块组成。LZO和Snappy的压缩速度好但压缩效率低,解压是gzip的两倍。Snappy解压缩好于LZO

4. MapReduce设置压缩算法的核心代码

//设置reduce端输出进行压缩

FileOutputFormat.setCompressOutput(job, true);

//设置reducer端压缩的类型

FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);


MapReduce学习(九):常见压缩算法简介

相关推荐