存档

文章标签 ‘readlink’

nutch的分布式抓取

2010年2月12日 ahei 26 条评论

前段时间我写了一篇文章讲nutch的简单使用,是单台机器抓取,今天我讲一下nutch的分布式抓取。

由于nutch的分布式是采用hadoop,所以nutch的分布式抓取主要涉及到hadoop和nutch本身两方面的配置。 阅读全文…