MapReduce学习（六）：内部标准和自定义计数器

luokingfly

2018-09-24

关注关注

1. Hadoop计数器定义

计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器，用来记录数据或者进度的变化情况，它比日志更便利进行分析。

Hadoop的计数器共分为两类：

内部标准计数器：hadoop内部自动提供的，即：执行hadoop任务时，自动会计数。

自定义计数器：用户根据自己的需要，通过代码主动控制某些敏感数据的计数。

2. 内部标准计数器

（1）例如之前的WordCount程序：当此程序执行时，hadoop会在后台自动出现如下信息：

MapReduce学习（六）：内部标准和自定义计数器

（2）在上图所示中，计数器有38个，分为如下几个组及介绍如下：

File System Counters ：文件系统计数器组

Map-Reduce Framkework： MapReduce框架

File Input Format Counters：文件输入格式化计数器组，即： map从hdfs读取的字节数

File Output Format Counters：文件输出格式化计数器组，即： reduce输出到hdfs的字节数

3. 用户自定义计数器

（1）自定义计数器的场景应用举例：

现在假设我们需要对文件中的敏感词做一个统计，即对敏感词在文件中出现的次数做一个记录。比如：文件中出现fuck单词的次数。

（2）自定义计数器的编写步骤：

第一步：通过Mapper.Context类直接获得计数器对象。这里有两个形参，第一个是计数器组的名称，第二是计数器的名称。

第二步：通过String类的contains方法判断是否存在Hello敏感词。如果有，进入条件判断语句块，调用计数器对象的increment方法。

（3）自定义计数器的核心代码：

Counter sensitiveCounter = context.getCounter("Sensitive Words:", "fuck");

String line = value.toString();

// 这里假定fuck是一个敏感词

if(line.contains("fuck")){

sensitiveCounter.increment(1L);

}

4. 用户自定义计数器全部代码

MapReduce学习（六）：内部标准和自定义计数器

5. 用户自定义计数器后台日志效果

MapReduce学习（六）：内部标准和自定义计数器

mapreduce hadoop 敏感词

luokingfly

0 关注 0 粉丝 0 动态

关注关注

hadoop框架三大组件hdfs、mapreduce、yarn 内容

1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4）MapReduce编程

tomli 2020-07-26

JStorm介绍

JStorm是一个类似于Hadoop MapReduce的系统，用户按照指定的接口实现一个任务，然后将这个任务交给JStorm系统，JStorm将这个任务跑起来，并按7*24小时运行。如果中间一个worker发生了意外故障，调度器立即分配一个新的worke

csdnhadoop 1评论 2020-07-04

mapreduce求topN

利用TreeSet排序,该方式利用小顶堆和集合重复原理的方式 , 每过来一个数据 , 跟堆顶数据进行比较 , 如果比最小的大 , 则将过来的数据替换堆顶元素 , 否则直接跳过数据 . 以此对数据进行排序 .public static class MapTa

ErixHao 2020-05-16

HBase与MapReduce交互

飞鸿踏雪0 2020-05-07

分布式计算框架——MapReduce

DAG计算——多个作业存在依赖关系，后一个的输入是前一个的输出，构成有向无环图DAG；Map、Reduce阶段的中间环节，负责执行Partition（分区）、Sort（排序）、Spill（溢写）、Merge（合并）、抓取等工作。Partition编号 =

zhangll00 2020-05-07

Hadoop之MapReduce学习(三)之ip去重、MaxScore示例、TotalScoreMapper示例

张三 684 李四 312 王五 721 赵六 548 田七 470 王八 668 陈九 340. public class MaxScoreMapper extends Mapper<LongWritable, Text,

香帅 2020-04-15

HBase和MapReduce

Apache MapReduce 是一个用于分析大量数据的软件框架。MapReduce 本身超出了本文档的范围。MapReduce 版本2现在是 YARN 的一部分。本章讨论在 HBase 中对数据使用 MapReduce 时需要采取的具体配置步骤。另外，

strongyoung 2020-04-11

MapReduce(分布式计算)_01

2-MapReduce的构思和框架结构。5-MapReduce案例-wordcount-准备工作

zhangll00 2020-03-27

MapReduce编程模型

1.环境搭建起来伪分布式2.MapReduce是基于HDFS之上的 MapReduce计算的内容应该是HDFS上的文件/文件夹3.计算=>统计=>Mapper阶段=>Reduce阶段　　MapReduce的编程模型4.Mapper

sujins 2020-03-06

bitmap、Trie、数据库索引、倒排索引、外排序、Mapreduce

问题给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？方案1：用位图/Bitmap的方法，申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的b

lixiaotao 2020-03-05

MapReduce的使用

MapReduce基于yarn组件，想要做MapReduce就必须先开启hdfs和yarn。将common、hdfs、yarn、MapReduce文件夹下的所有jar包及其依赖包导入到项目中。Mapper阶段：Map必须得继承Mapper类，并且重写map

tomli 2020-03-05

Hadoop基础---MapReduce对数据进行排序

-1 : 1; //返回值为-1，则排在前面。return "" + up_flow + "\t" + down_flow + "\t"+ sum_flow;public class Res

WeiHHH 2020-02-23

Hadoop——MapReduce介绍

MapReduce是一种编程模型，用于大规模数据集的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想。　　首先2T的文件，你放在单机上可能存不下来，如果再他多一点呢？比如几千个文件，几十个

zzjmay 2020-02-23

Hadoop架构及集群

HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算，特点是：高可靠性，高扩展性，高效性，高容错性。

JavaWDB 2020-02-13

MapReduce编程实战（2）-词频统计结果存入mysql数据库

通过实现MapReduce计算结果保存到MySql数据库过程，掌握多种方式保存计算结果的技术，加深了对MapReduce的理解；创建maven项目，项目名称hdfs，这里不再说明。红色部分为增加内容：

大白配小猪 2020-02-09

MapReduce和Hive学习文档链接学习顺序

18、《sqoop的使用之导入到hive和mysql》。21、《Hive中利用日志数据学习分析思路》

IT智囊 2020-02-02

Hadoop学习之路(7)MapReduce自定义排序

MapReduce中，根据key进行分区、排序、分组MapReduce会按照基本类型对应的key进行排序，如int类型的IntWritable，long类型的LongWritable,Text类型，默认升序排序为什么要自定义排序规则？现有需求，需要自定义k

IT智囊 2020-01-01

python| MongoDB聚合(count、distinct、group、MapReduce)

增加查询条件会使count查询变慢。initial：每一组reduce函数调用时作为第二个参数传递给reduce函数的初始文档，每一组的所有成员都会使用这个累加器，所以改变会被保留住。group和MapReduce对比示例：查询相同年龄人的名字。

yogoma 2020-01-10

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统，简称HDFS。HDFS放宽了POSIX的要求，可以以流的形式访问文件系统中的数据。Hadoop的框架最核心的设计就

sujins 2020-01-09

hadoop自带性能测试

清空数据hadoop jar hadoop-mapreduce-client-jobclient-2.6.4.jar -cleanhadoop fs -ls /benchmarks/. 写性能测试hadoop jar hadoop-mapreduce-c

飞鸿踏雪0 2019-12-29

安科网

MapReduce学习（六）：内部标准和自定义计数器

luokingfly

luokingfly

相关推荐

hadoop框架三大组件hdfs、mapreduce、yarn 内容

JStorm介绍

mapreduce求topN

HBase与MapReduce交互

分布式计算框架——MapReduce

Hadoop之MapReduce学习(三)之ip去重、MaxScore示例、TotalScoreMapper示例

HBase和MapReduce

MapReduce(分布式计算)_01

MapReduce编程模型

bitmap、Trie、数据库索引、倒排索引、外排序、Mapreduce

MapReduce的使用

Hadoop基础---MapReduce对数据进行排序

Hadoop——MapReduce介绍

Hadoop架构及集群

MapReduce编程实战（2）-词频统计结果存入mysql数据库

MapReduce和Hive学习文档链接学习顺序

Hadoop学习之路(7)MapReduce自定义排序

python| MongoDB聚合(count、distinct、group、MapReduce)

Hadoop

hadoop自带性能测试

luokingfly