`
ywy041102
  • 浏览: 8070 次
  • 性别: Icon_minigender_1
  • 来自: 广州
文章分类
社区版块
存档分类
最新评论

Nutch使用方法简介

阅读更多
Nutch使用方法简介



目前Nutch采用Sehll的启动方式,如果您使用的是Windows系统,那么首先需要安装Cygwin。本文就以在Windows中为例,介绍Nutch的安装和使用方法。



(1)准备需要的软件列表

    Cygwin     (下载地址:http://www.cygwin.com/setup.exe)
    Jdk(1.4.2以上版本,下载地址http://java.sun.com/javase/downloads/index.jsp)
    Nutch(推荐使用0.9版本,下载地址http://www.apache.org/dyn/closer.cgi/lucene/nutch/)
    Tomcat(下载地址http://tomcat.apache.org/)


(2) 安装软件

   

     1)  Cygwin 打开安装程序Cygwin.exe后,在"Choose Installation Type"页选择 "Install from Internet"(如果你已经把全部安装包下载到本地,就可以选择"Install from local directory"选项)。然后点击"Next".

          然后选择安装目录,其他可保持默认选项,点击"Next".

          选择保存安装包的本地目录,点击"Next".

          选择下载连接的类型,点击Next。

          然后通过服务器先下在需要安装的包列表,默认全部安装,并且选择可以使用的下载镜像地址(速度不一样,如果下载速度太慢可以换别的:) )

          请耐心等待,安装程序会自动下载和安装程序包,并且保存程序包在设定的目录,这样下次安装就不必重新下载了。我安装时大约用了3分钟,下载网速大约80Kbs/s。

          完成安装。

     2) 安装JDK,这个就不用介绍了,注意安装完成后需要在Windows的环境变量中加入JAVA_HOME=你的jdk的安装目录

     3) 安装Tomcat,这个就不用多说了吧。

     4)把Nutch解压到本地目录,例如D:\nutch。这时候启动Cygwin程序,Cygwin程序会启动一个模拟Unix/Linux的终端窗口,然后使用方式就和Unix的Shell一样了,Cygwin的根目录是/cygdriver,这个目录相当于Windows的“我的电脑”,然后进入Nutch的目录,例如:cd /cygdriver/d/nutch,然后运行bin/nutch命令,如果出现下面的Usage 信息,这样Nutch就安装完成了,非常简单。

     Usage: nutch COMMAND
     where COMMAND is one of:
         crawl one-step crawler for intranets
         readdb read / dump crawl db
         mergedb merge crawldb-s, with optional filtering
         readlinkdb read / dump link db
         inject inject new urls into the database
         generate generate new segments to fetch
         fetch fetch a segment's pages
         parse parse a segment's pages
         readseg read / dump segment data
         mergesegs merge several segments, with optional filtering and slicing
         updatedb update crawl db from segments after fetching
         invertlinks create a linkdb from parsed segments
         mergelinkdb merge linkdb-s, with optional filtering
         index run the indexer on parsed segments and linkdb
         merge merge several segment indexes
         dedup remove duplicates from a set of segment indexes
         plugin load a plugin and run one of its classes main()
         server run a search server
     or
         CLASSNAME run the class named CLASSNAME
     Most commands print help when invoked w/o parameters.

       

(3)开始使用Nutch

        下面用一个简单的例子说明Nutch的使用方法

        1) 添加需要爬行的内部网地址信息。

         新建一个目录,写入一些网址信息,例如我们需要爬行csdn的内部网。

             mkdir urls

             echo http://www.csdn.com/ >urls/csdn

        2) 然后修改 conf目录下的crawl-urlfilter.txt文件,这个文件中的正则表达式定义了那些文件可以被Nutch爬行,那些不可以被爬行。其中以“+”号开头的表示属于Nuch合法的Url连接,“-”号开头相反。我们需要修改文件中的

          # accept hosts in MY.DOMAIN.NAME
           +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

         为

        # accept hosts in MY.DOMAIN.NAME
        +^http://([a-z0-9]*\.)*csdn.com/



         3)接下来我们需要配置conf/nutch-site.xml,这个需要填写相关的代理属性,应为Nutch也许要准受Robot协议,在爬行人家网站的时候,把相关的信息提交给被爬行的网站。

         我们在这个文件中,需要在<configuration>和</configuration>之间,加入是个代理属性,例如http.agent.name属性       

         <property>

         <name>http.agent.name</name>

         <value>csdn.com</value>

         <description>csdn.com</description>

         </property>

        其中除了name字段需要准确添写外,其他value和descrption字段可或添写。

       同样,还需要加入http.agent.description,http.agent.url和http.agent.email这三个属性。



       4)这样就完成了全部爬行所需要的配置,下面就可以用nutch的crawl命令来派性企业内部网了

        再nutch目录中输入:

        bin/nutch crawl urls -dir csdn -threads 4 -depth 2 -topN 30

        这样nutch就启动并且开始爬行任务了,由于是简单示例,所以以上这个命令很快就结束了,因为爬行的广度和深度都非常小,也就是说,示例只爬行了csdn网站的很小一部分网页。

        下面就上面命令的参数进行说明:

        Crawl命令的使用说明为: crawl <url dir> [-dir index] [-threads num] [-depth num] [-topN num]

        其中:

           urls是存放需要爬行网址的文件夹目录。

           -dir选项是抓取的页面的存放目录。

           -threads选项是启动的最大线程数。

           -depth选项是能爬行的最大深度,也就是最多爬行到第几级的页面,也叫爬行深度。

           -topN选项是在每层深度上,所能爬行的最多页面数,也称爬行广度。      

        完成爬行后,会在-dir选项所指定的目录中保存网页信息和搜索需要的索引。


本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/pengpengfly/archive/2008/09/29/2994664.aspx
分享到:
评论

相关推荐

    nutch使用&Nutch;入门教程

    nutch使用&Nutch;入门教程 pdf

    Nutch使用指南(英文)

    Nutch 是开源的,可以建立自己内部网的搜索引擎,也可以针对整个网络建立搜索引擎

    nutch使用文档

    nutch的使用方法,里面有具体的nutch代码函数,命令,对于基本的网页爬取是够了

    Nutch使用入门

    Nutch入门使用文档,教大家如何部署Nutch爬虫

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    Nutch搜索引擎的页面排序修改方法研究.kdh

    虽然Nutch的页面排序方法比较合理,但是很多情况下仍然不能 满足需要。分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改Nutch 排序的方法,对每种方法的实现进行了阐述...

    mp3文件信息解析-nutch使用

    mp3文件信息解析。支持ID3标准的V1和V2.3.可以再nutch中使用。宁外附上nutch的parse-html的一些定制。(图片,关键字匹配)

    Linux下Nutch分布式配置和使用

    Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。

    nutch 初学文档教材

    1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装...

    提高nutch运行效率的原理与方法

    提高nutch运行效率的原理与方法,nutch的运行过程相对来说还是很慢的,对于一些特殊的应用来说,必须对nutch做很多修改来达到提高速度的目的,本人在这方面有深入研究,可以提高2-5倍性能。

    Nutch相关框架视频教程

    资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...

    nutch的源码解读和nutch入门

    学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎

    eclipse配置nutch,eclipse配置nutch

    eclipse配置nutch,eclipse配置nutch

    Nutch 使用总结

    nutch 初学者使用,讲解了nutch使用的方法,功能,简单的例子实现

    Nutch入门资料PDF格式

    Nutch开发入门 Nutch安装和使用 Nutch二次开发 很不错

    Apache Nutch v1.15

    Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。 大数据这个术语最早的引用可追溯到Nutch...

    开发基于 Nutch 的集群式搜索引擎

    然后以开发一个基于 Nutch 的实际应用为例向读者展示如何使用 Nutch 开发自己的搜索引擎。在该示例中,首先带领读者开发一个作为 Nutch 爬虫抓取的目标网站,目标网站将被部署在域名为 myNutch.com 的服务器上。然后...

    Nutch搜索引擎·Nutch浅入分析(第5期)

    1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析

    nutch的安装方法,好用

    好动系,我自己从网上下的,一步一步教你怎么做,很容易上手的!

    Nutch搜索引擎·Nutch简介及安装(第1期)

    1.1 Nutch 简介 1.1.1 Nutch 的目标 1.1.2 Nutch 的优点 1.1.3 Nutch 与Lucene 关系 1.2 Nutch 安装 1.2.1 环境介绍 1.2.2 安装JDK 1.2.3 安装Tomcat 1.2.4 安装Nutch

Global site tag (gtag.js) - Google Analytics