存档

‘搜索引擎’ 分类的存档

nutch的分布式抓取

2010年2月12日 ahei 26 条评论

前段时间我写了一篇文章讲nutch的简单使用,是单台机器抓取,今天我讲一下nutch的分布式抓取。

由于nutch的分布式是采用hadoop,所以nutch的分布式抓取主要涉及到hadoop和nutch本身两方面的配置。 阅读全文…

Nutch配置文件的加载

2009年11月30日 ahei 2 条评论

Nutch的配置文件主要有三类:

  • Nutch插件的配置文件,这些配置文件主要是在加载插件的时候由插件自己加载的,主要是filter和normalizer插件的配置文件
  • Nutch自己的配置文件,-default.xml和nutch-site.xml
  • Hadoop的配置文件,-default.xml和hadoop-site.xml

这些配置文件的加载顺序决定了它们的优先级,优先级低的会被优先级高的配置文件中的配置覆盖,所以要想配置好nutch,了解配置文件的加载顺序是必须的。下面我通过对nutch源码的剖析来看看nutch是怎样加载配置文件的。 阅读全文…

Nutch的简单使用

2009年11月25日 ahei 413 条评论

Nutch是一个开源的搜索引擎,包括抓取,索引,搜索,不过它主要专注于抓取,下面我讲一下它的简单使用。 阅读全文…