一个不错的nutch使用文档2007-10-26 10:19基本上把思路理清了
一、安装nutch和配置tomcat,注意nutch0.7和0.8的区别,在这里以0.7版本为例
二、抓取网页,建立搜索
1、假设当前目录为nutch目录,建立一个urls文件,内容就是要抓取的网站域名,如http://www.mydomain.com,可以有多个,每行写一个。在试验中发现,只有根域名有时候抓取的内容没有或很少,加入更多的详细URL效果很好,比如http: //www.mydomain.com/users,http://forum.mydomain.com/post/123,http://www.mydomain.com/articles/123 等,越详细越全面越好,我理解是不是这样的话在crawl的时候,depth的值就可以设小一些了。
2、修改conf/crawl-urlfilter.txt,加入过滤URL的规则
3、开始抓取:
#bin/nutch crawl urls -dir crawl.mydomain -depth 10
4、运行Tomcat前的准备,拷贝war文件,参见《nutch研究(二)》
5、到这里基本的搜索就可以用了
三、 索引的更新和维护
1、写一个维护脚本,定时运行,是个好办法
#!/bin/bash
# Set JAVA_HOME to reflect your systems java configuration
export JAVA_HOME=/usr/lib/j2sdk1.5-sun
# Start index updation,只查找最热门的前1000条记录,由此创建新的segment
bin/nutch generate crawl.mydomain/db crawl.mydomain/segments -topN 1000
#得到最新的segment目录名
s=`ls -d crawl.virtusa/segments/2* | tail -1`
echo Segment is $s
bin/nutch fetch $s
bin/nutch updatedb crawl.mydomain /db $s
bin/nutch analyze crawl.mydomain /db 5
bin/nutch index $s
#删除重复记录
bin/nutch dedup crawl.mydomain /segments crawl.mydomain/tmpfile
# Merge segments to prevent too many open files exception in Lucene
#合并成一个新的segment
bin/nutch mergesegs -dir crawl.mydomain/segments -i -ds
s=`ls -d crawl.mydomain/segments/2* | tail -1`
echo Merged Segment is $s
rm -rf crawl.mydomain/index
2、以上是在urls文件内容没有变化的时候采用的办法,如果我加入的新的URL在urls文件里,那么在运行generate以前,要执行下面一命令:
#bin/nutch inject crawl.mydomain/db -urlfile urls
在generate的时候,如果不加topN参数,那么crawl只会去处理新加的或原来由于其它原因没有fetch的url或page,所以我感觉,脚本1和用2修改的脚本交替运行,会有很好的效果。
分享到:
相关推荐
nutch的使用方法,里面有具体的nutch代码函数,命令,对于基本的网页爬取是够了
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....
nutch1.4帮助文档,学习nutch1.4必备,最新nutch1.4核心类解读!
Nutch 高级 插件是开发 多Nutch内部的流程有很好的解释和说明
nutch1.2测试文档
里面描述了Nutch的基本流程,Nutch与eclipse的结合,Nutch与Solr的结合
nutch学习nutch帮助文档;nutch学习 入门
Nutch API帮助文档,学习Nutch必备
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 本版本为html版,在离线情况下也可以方便使用。目前(2014.5.5)为最新版本的2.2.1。
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。
Nutch入门使用文档,教大家如何部署Nutch爬虫
这篇文档是Nutch的基础文档,对Nutch的环境搭建做了简单的介绍。
NULL 博文链接:https://chenhua-1984.iteye.com/blog/380779
自己整理的亲测可用,已经安装了几遍,喜欢的可以看看
maven使用文档,maven使用文档 很不错的文档
Nutch Nutch 的爬虫有两种方式 ... 爬行整个互联网:使用低层的 inject, generate, fetch 和 updatedb 命令,具有更强的可控制性。 有研究或探讨的请加群:37424970 或联系本人MSN或邮箱:zhuseahui@yahoo.com.cn
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: https://github.com/CrawlScript/nutcher 目录: Nutch教程——导入Nutch工程,执行完整爬取 ...
nutch2.3+hbase0.94.14+hadoop1.2.1安装文档.txt )
北京邮电大学研究生课程实验指导书。 在windows上配置测试Nutch 用于学习nutch配置的各种问题 分为本地抓取,局域网抓取和互联网抓取三部分