nutch0.9实现抓取动态网页部署笔记

hanwentan

2011-06-13

一：准备工作：

1：下载nutch，地址是：http://www.apache.org/dist/lucene/nutch/

2：下载JDK6（一定要是jdk6的版本，否则会报错），地址是：

http://java.sun.com/javase/downloads/index.jsp

3：下载Cygwin(是一个在windows平台上运行的unix模拟环境的软件)，地址是：http://www.cygwin.com/ 安装说明参考这里： 4：下载tomcat6，地址是：http://tomcat.apache.org/

二：配置：（前面的软件都安装完毕）

1：解压缩的nutch后，到conf下面修改crawl-urlfilter.txt

#accepthostsinMY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*apache.org/

+^http://([a-z0-9]*\.)*longtask.com/blog/

如果有需要可以继续添加相关的站点.

2：修改conf下面的nutch-site.xml文件，在<configuration>之间添加以下内容

<property>

<name>http.agent.name</name>

<value>longtask</value>

<description>HTTP‘User-Agent’requestheader.</description>

</property>

<property>

<name>http.agent.description</name>

<value>longtask</value>

<description>Furtherdescriptionofourbot-thistextisusedintheUser-Agentheader.

</description>

</property>

<property>

<name>http.agent.url</name>

<value>http://www.longtask.com/blog/</value>

<description>AURLtoadvertiseintheUser-Agentheader.

</description>

</property>

<property>

<name>http.agent.email</name>

<value>longtask@gmail.com</value>

<description>AnemailaddresstoadvertiseintheHTTP‘From’requesheaderandUser-Agentheader.

</description>

</property>

3：回到到nutch的根目录，进入bin目录，建一个urls的文件夹，在文件夹中建一个nutch.txt的问题件，在文件中加入上面要鉴权的Url地址（抓取的网址(nutch.txt)经过(crawl-urlfilters.xml)过滤后，如果没有内容会在log中报错：Stopping at depth=0 – no more URLs to fetch.）。这个地方用nutch1.0怎么都跑不过，只能换回0.9的版本了。

三：解决搜索动态内容的问题：

需要注意在conf下面的2个文件：regex-urlfilter.txt，crawl-urlfilter.txt

#skipURLscontainingcertaincharactersasprobablequeries,etc.

-[?*!@=]（-改+）

这段意思是跳过在连接中存在?*!@=的页面，因为默认是跳过所以，在动态页中存在？一般按照默认的是不能抓取到的。可以在上面2个文件中都修改成：

#skipURLscontainingcertaincharactersasprobablequeries,etc.

#-[?*!@=]

另外增加允许的一行

#acceptURLscontainingcertaincharactersasprobablequeries,etc.

+[?=&]

意思是抓取时候允许抓取连接中带?=&这三个符号的连接

注意：两个文件都需要修改，因为NUTCH加载规则的顺序是crawl-urlfilter.txt-> regex-urlfilter.txt

四：运行爬虫，抓取内容：

打开Cygwin,

在命令行窗口中输入：cdnutch的目录/bin

执行命令：

shnutchcrawlurls-dire:/index-depth3-threads4-topN50>&./log.txt

说明：

-dirdirnames设置保存所抓取网页的目录.

-depthdepth表明抓取网页的层次深度

-delaydelay表明访问不同主机的延时，单位为“秒”

-threadsthreads表明需要启动的线程数

-topNnumber在每次迭代中限制爬行的头几个链接数,默认是Integer.MAX_VALUE

运行结束后，查看log.txt日志，会有爬虫检索网页的详细信息。

问题的解决：运行的过程中报错：

Stoppingatdepth=0–nomoreURLstofetch.

NoURLstofetch–checkyourseedlistandURLfilters.

在urls的nutch.txt中再添加一个URL即可，这个是nutch0.9的bug（如果是1.0这个地方不知道怎么搞定，所以改回0.9来部署了。）

五：部署到tomcat下面：

1:配置nutch-0.9.war包中的文件

a：修改nutch-0.9.war\WEB-INF\web.xml

<?xmlversion="1.0"encoding="ISO-8859-1"?>

为

<?xmlversion="1.0"encoding="UTF-8"?>

b：修改nutch-0.9.war\WEB-INF\class\nutch-site.xml

注意：不要让你的config中有2个<configuration>，否则的话检索不出来东西。

<configuration>

<property>

<name>searcher.dir</name>

<value>e:/index</value>

</property>

</configuration>

2:把应用部署到tomcat的webapps下面，启动tomcat，访问应用：http://localhost:8080/nutch-0.9就可以得到以下界面：

nutch0.9实现抓取动态网页部署笔记输入访问的条件后，结果如下：

nutch0.9实现抓取动态网页部署笔记

nutch apache target

hanwentan

0 关注 0 粉丝 0 动态

相关推荐

Hadoop

8.在2008年，Doug加入了Yahoo，开源了Hadoop，在Yahoo期间设计实现了Pig、HBase等框架

HJWZYY 2020-06-21

你的大数据之Hadoop是如何去学习的？Hadoop300集了解一下

HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。Nutch的开发人员完成了相应的开源实现HDFS和

tanxinwhu 2019-08-26

二次开发nutch的恩恩怨怨

今天下午，总算用脚本把自己二次开发的nutch跑起来了。从第一次接触nutch到现在，一年半接近两年的时间了。从开始的一无所知、凑合着用到后来的尝试梳理、阅读源码、放弃使用再到今年的坚定信念来攻克以至今日可以随意的修改满足自己的需求，心理历程不可谓不复杂。

crazyhulu 2014-09-29

开源搜索引擎

开源搜索引擎，或者准确的说开源爬虫系统，目前有nutch和heritrix等，nutch基于hadoop架构，分为1.x和2.x分支。nutch目前用得相对比较多一些。

ach 2014-03-16

运行nutch报错：unzipBestEffort returned null

2014-03-12 16:48:38,031 ERROR http.Http - Failed to get protocol output. nutch1.7\src\plugin\protocol-http\src\java\org\apache\n

Junzizhiai 2014-03-12

开源爬虫框架的优缺点？

开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch. 3)Nutch虽然有一套插件机制，而且作为亮点

wawaboss 2017-03-22

nutch 2.1 分布式hbase部署

现在网上针对nutch2.0以上版本的部署内容很残缺。经过两天奋战，终于把nutch2.1在hbase上部署成功了！在此与网友分享。保险起见还是采用推荐的hbase0.90.x版本吧。我觉得是因为gora的原因，因为gora的版本已经很久没有更新。-- P

zxiaozhuT 2013-02-28

NUTCH中的not in gzip format异常处理

此页面采用这个是一个分段传输，而nutch爬虫则默认采用了非分段式处理，导致构造GZIP时出错，从而影响了后面的GZIP解压失败。是否是分段传输可以在Http headers里面看到，如果是分段传输则有：transfer-encoding：chunked这

liubang000 2011-06-10

利用nutch-1.2和Lucene 搭建自己的搜索平台， Apache Mahout 构建社会化推荐引擎

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:. 　　Nutch是基于Lucene的。Lucene为Nutch提供了文本索引和搜索的API。在这种情况下，最好的方式

繌子 2011-04-17

Lucene+Nutch搜索引擎开发一：介绍

本系列文章是Lucene+Nutch学习、实现的记录，适用于有java开发经验以及对搜索引擎有初步了解的读者。Lucene实现了文档编目、建立索引、对内容的检索实现。Nutch是一个开源的第二代Web搜索引擎，实现了网页自动爬去，内容编目，存储，查询，提取

喜糖 2011-02-22

Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?

Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?今天浪费了一天的时间花费在这上面,一开始是用Nutch1.1导入在MyEclipse与Eclipse中的,不断的尝试,不断的调试,上网查阅了太多的文章了,发现按他们每一种的方式

shgege 2011-01-21

web爬虫

web爬虫主要功能是从web中发现，下载以及存储内容。广泛应用于各种搜索引擎中。这个模块还要提取网页中的URL和一些对于索引有用的数据。规范化URL模块，把URL转成标准的格式。URL过滤器，爬虫可以过滤掉不需要的URL。爬虫读取没有访问过的URL，来确定

xiajlxiajl 2010-11-20

Nutch 是一个开源Java 实现的搜索引擎

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的架构，采用了非常灵活的插件模式，大部分的核心功能，都可以通过组装插件的方式的来完成。1，下载nutch编码，进行编译。2，进

superdullwolf 2016-10-31

windows平台下，使用nutch，得需要cygwin工具作为其模拟linux的运行环境

2，安装完cygwin，确定配置好环境变量，可以输入cygcheck -c cygwin查看版本 [img][/img]，正确之后就可以进行下一步了。3，到nutch官网下载nutch1.6的版本，1.6的自带编译好的bin，所以可以省去像nutch2.

kuihan0 2016-10-28

全文搜索引擎

本文转载自xum2008的博客，主要介绍13款现有的开源搜索引擎，你可以将它们用在你的项目中以实现检索功能。Xapian是一个用C++编写的全文检索程序，它的api和检索原理和lucene在很多方面都很相似，算是填补了lucene在C++中的一个空缺.Nu

leshem 2016-02-17

Google式的搜索引擎实现

Nutch是一个基于Lucene，类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。Nutch 0.8 完全使用Hadoop重写了

Harper 2014-12-16

搜索引擎 Nutch

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

ShareCode 2013-12-31

Nutch中MapReduce的分析

Nutch是最早用MapReduce的项目，Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表，生成抓取列表，抓取内容，分析处理内容，更新Craw

文洲 2013-08-04

linux nutch1.0安装配置

2，上传到服务器。上传位置：/home/www/，解压nutch-1.0.tar.gz. 3，修改配置文件。在/home/www/nutch目录下新建urls. 新建seed.txt文件，写入要抓去的网站地址。把上面两个文件末尾+都改成+^http://*

陈小冬的技术 2013-03-03

nutch 2.0 search accumulo solr

-- This can also have params like compression, bloom filters -->

年轻就要对味 2012-10-03

hanwentan

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号