存档

文章标签 ‘ubuntu’

nutch的分布式抓取

2010年2月12日 ahei 26 条评论

前段时间我写了一篇文章讲nutch的简单使用,是单台机器抓取,今天我讲一下nutch的分布式抓取。

由于nutch的分布式是采用hadoop,所以nutch的分布式抓取主要涉及到hadoop和nutch本身两方面的配置。 阅读全文…

Nutch的简单使用

2009年11月25日 ahei 393 条评论

Nutch是一个开源的搜索引擎,包括抓取,索引,搜索,不过它主要专注于抓取,下面我讲一下它的简单使用。 阅读全文…