Hadoop:倒排索引源代码

hanky

2011-10-06

mapper端实现

public static class Mapclass extends MapReduceBase implements 
		Mapper<LongWritable,Text,Text,Text>{
			
		public Text name = new Text();
		public Text location = new Text();
		public void map(LongWritable key,Text value,
				OutputCollector<Text,Text> output,Reporter reporter)throws IOException{
			FileSplit fs = (FileSplit) reporter.getInputSplit();
			String filename = fs.getPath().getName();
			this.location.set(filename);
			
			StringTokenizer itr = new StringTokenizer(value.toString());
			while(itr.hasMoreTokens()){
				this.name.set(itr.nextToken());
				output.collect(this.name, this.location);
			}
		}
	}

Reducer端实现：

public static class Reducerclass extends MapReduceBase implements 
	Reducer<Text,Text,Text,Text>{
		public void reduce(Text key,Iterator<Text> values,
				OutputCollector<Text,Text> output,Reporter reporter) throws IOException{

			String first = ((Text) values.next()).toString();
			
			String curr = first;
			int sum = 1;
			StringBuffer sb = new StringBuffer();
			while (values.hasNext()) {
				
				String next = ((Text) values.next()).toString();
			
				if (curr.equals(next)) {
					sum++;
				} else {
					sb.append(curr).append("\t").append(sum).append("\t");
					sum = 1;
					curr = next;
				}
			};
			sb.append(curr).append("\t").append(sum).append("\t");
			output.collect(key, new Text(sb.toString()));
				
		}//end reducer
	}

其他job输入输出路径就自己写吧

源代码索引 hadoop

hanky

0 关注 0 粉丝 0 动态

相关推荐

SpringBoot的设计理念和目标、整体架构你有深入了解吗

读者可根据日常习惯，选择熟悉的代码阅读 I 具，比如 Intellij IDEA、Spring Tool Suite、Eclipse、 MyEclipse 等。阅读 Spring Boot 源代码之前，我们还需搭建基础阅读环境。Spring Boot 对

yangjinpingc 2020-10-09

Python之父的加速秘籍：PyPy能让代码运行得更快

当我们提及Python时，常常指的是CPython，即C语言实现的Python，这就是PyPy发挥作用的地方啦。实话讲，Python很慢，而用Python(!)编写的Python在运行时，执行速度比CPython快4.4倍。正如Python之父吉多·范罗苏

Morelia 2020-09-04

源代码管理工具和bug管理系统选择与架设

TortoiseSVN: 很好装. 意外: 居然看到对svn用的.开头的文件夹,Asp.net加载项目会出现问题,于是听从过来人的建议,没有选TortoiseSVN未解决此问题而出的所谓特别版,而是准备采取一个有趣的做法:把Asp.net的web app改

起点 2020-08-17

2020年度优秀的23个的机器学习项目（附源代码）

我们都知道，教科书上所学与实际操作还是有出入的，那关于机器学习有什么好的项目可以实操吗?文摘菌为你推荐这篇文章，在本教程中，涵盖面向初学者，中级专家和专家的23种机器学习项目创意，以获取有关该增长技术的真实经验。这些机器学习项目构想将帮助你了解在职业生涯中

playoffs 2020-08-06

如何把C++的源代码改写成C代码？

C++解释器比C语言解释器占用的存储空间要大，想要在某些特定场合兼容C++代码，同时为了节省有限的存储空间，降低成本，也为了提高效率，将用C++语言写的源程序用C语言改写是很有必要的。C++与C区别最大的就是C++中的类的概念和特性，将C++改为C的问题，

Web前端成长之路 2020-07-07

一个测试程序迭代的故事03

测试代码经常要输出信息。一般网上分享的方案都是用ShowMessage之类的窗体输出信息，要点击才可以关闭弹出的窗体，如果用在循环中，可不太友好。还可以使用OutputDebugString输出调试信息，但不能脱离IDE，还要打开Envent Log窗口，

jeason 2020-06-09

PHP7 windows增加自定义扩展和编译PHP源代码

①确定需要编译的版本,查看PHPINFO，确定PHP版本,VC版本和PHP位数。根据PHP VC版本下载对应的Visual Studio或者编译器,图下博主的版本是VC15 需要下载Visual Studio 2017版本。②执行命令 phpsdk_bui

缘起宇轩阁 2020-06-09

推荐Web程序员常用的15个源代码编辑器

Web开发人员可能是目前世界上最受破坏和薪水不足的职业之一。许多人没有意识到他们对商业网站的运营以及看起来适当和高效所具有的实际价值。从命名网站到外观，这是一个至关重要的过程，不应将其视为理所当然。如果您希望自己的网站成功，许多网页设计分析将确保出色的网站

佛系程序员J 2020-06-09

Javassist/ASM 框架比较

Javassist 使操作Java字节码变得简单。它是一个用于编辑Java字节码的类库；跟其他类似的字节码编辑器不同的是，它使Java程序能够在运行时定义一个新类，并在JVM加载类文件时修改它。Javassist提供了两种级别的API：源级别和字节码级别。

beibeijia 2020-06-07

如何运行 O’Reilly 书 Python for Finance 的源代码

你可以将这个项目 fork 到本地后运行。如果你的系统中没有安装 jupyter notebook 的话，你首先需要安装这个。当你安装完成后，如果你使用的是 Windows 的环境。最后你会看到 jupyter notebook 启动后，浏览器会打开。然后

chinademon 2020-06-01

Understand for Mac(源代码分析维护工具)

Understand for Mac版是应用在Mac上的一款源代码审查工具，Understand非常有效地收集有关代码的度量标准并为您提供不同的查看方式，Understand还为您提供了一种使用已发布的编码标准或您自己的自定义标准来检查代码的方法，帮助分析

乌冬面 2020-05-25

Understand for Mac(源代码分析维护工具)

Understand for Mac版是应用在Mac上的一款源代码审查工具，Understand非常有效地收集有关代码的度量标准并为您提供不同的查看方式，Understand还为您提供了一种使用已发布的编码标准或您自己的自定义标准来检查代码的方法，帮助分析

longjing 2020-05-25

优秀的源代码审查工具：Understand for Mac

MacW小编为您带来Understand for Mac ，这是一款空前强大的代码编程审阅软件，尤其是对于从事大型多个MSLOC项目的人员来说，Understand 已经是他们不可或缺的工具之一，它可以帮助程序员快速理解，衡量，维护和记录他们的源代码。Un

TinyDolphin 2020-05-19

SVN信息泄露漏洞

据介绍，SVN是程序员常用的源代码版本管理软件。在服务器上布署代码时。如果是使用 svn checkout 功能来更新代码，而没有配置好目录访问权限，则会存在此漏洞。黑客利用此漏洞，可以下载整套网站的源代码。svn1.6及以前版本会在项目的每个文件夹下都生

起点 2020-05-10

Jenkins获取Gitlab源代码

仓库创建好了以后，就有地址了，使用jenkins把这个仓库地址拉到jenkins上去，然后在jenkins把HTML代码部署到指定的服务器上跑起来。然后回到 Jenkins 上 My-freestyle-job 配置页面，下拉到“源码管理”部分，勾选 gi

nanbiebao 2020-05-03

Python开发实战资料分享：《Flask Web开发实战：入门、进阶与原理解析》PDF+源代码

JessePinkmen 2020-04-29

算法书籍分享：《机器学习系统设计》（源代码+PDF+书签）

下载地址。提取码：wcjh. 内容

THEEYE 2020-04-27

什么原因成就了一位优秀的程序员？

　　这些年我曾和很多程序员一起工作，他们之中的一些人非常厉害，而另一些人显得平庸。不久前因为和一些技术非常熟练的程序员工作感觉很愉快，我花了一些时间在考虑我佩服他们什么呢？简而言之，什么原因成就了一位优秀的程序员呢？　　根据我的经验，成为一个优秀程序员同年

xiaoyaodaia 2020-04-27

Linux命令——whereis

和find相比，whereis查找的速度非常快，这是因为linux系统会将系统内的所有文件都记录在一个数据库文件中，当使用whereis和下面即将介绍的locate时，会从数据库中查找数据，而不是像find命令那样，通过遍历硬盘来查找，效率自然会很高。

GeorgeTH 2020-04-27

如何打包发布加密的 Python 源代码

后者则可以加密源代码，并且把加密的代码绑定到硬盘和网卡，也可以设置有效期。和其他打包工具一样，PyInstaller 对 Python 源代码只是简单编译成为 .pyc 文件，然后打到一个压缩包里面。PyArmor 对代码的加密分为两个层次，首先是对整个

bcbeer 2020-04-25

hanky

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号