存档

文章标签 ‘top’

nutch的分布式抓取

2010年2月12日 ahei 26 条评论

前段时间我写了一篇文章讲nutch的简单使用,是单台机器抓取,今天我讲一下nutch的分布式抓取。

由于nutch的分布式是采用hadoop,所以nutch的分布式抓取主要涉及到hadoop和nutch本身两方面的配置。 阅读全文…

我的wordpress插件

2010年1月21日 ahei 10 条评论

最近自己用wordpress把博客搭起来了,由于以前在yo2上写博客的时候,wordpress都是yo2已搭好的,插件也都是他们加的,用户不能自己上传插件,少了很多麻烦,也多了一些不方便。这次自己搭博客,由于没有以前yo2上wordpress的插件列表,只有自己根据印象一个的去找插件,找的过程中,也发现了一些比较好的插件,这里我记录下来,做备录用,也供没有搭过wordpress的同志参考。(注:以下插件根据重要性和功能强大性做基本有序排序,这些插件都可以根据名字去wordpress插件官网下载。) 阅读全文…

分类: 初级, 技术杂记

用tsocks代替sockscap来转发网络请求

2009年12月7日 ahei 3 条评论

你有没有遇到过这种情况: 某一台机器A的网速特别快, 另外一台机器B和A机器在同一个局域网内, 但是B机器的带宽有限, 由于A机器和B机器由于是在局域网内, 传输速度很快, 所以如果能把B机器的网络请求先发到A, 再由A转发出去, 这样B机器的网速可以一样很快了. 那么怎样来转发请求呢? 很显然, 用代理软件就可以做到. 但是, 我在这里给大家提供一个更简便的架设socks代理的方法, 用ssh服务. 阅读全文…

分类: linux, 中级

Nutch配置文件的加载

2009年11月30日 ahei 2 条评论

Nutch的配置文件主要有三类:

  • Nutch插件的配置文件,这些配置文件主要是在加载插件的时候由插件自己加载的,主要是filter和normalizer插件的配置文件
  • Nutch自己的配置文件,-default.xml和nutch-site.xml
  • Hadoop的配置文件,-default.xml和hadoop-site.xml

这些配置文件的加载顺序决定了它们的优先级,优先级低的会被优先级高的配置文件中的配置覆盖,所以要想配置好nutch,了解配置文件的加载顺序是必须的。下面我通过对nutch源码的剖析来看看nutch是怎样加载配置文件的。 阅读全文…

Nutch的简单使用

2009年11月25日 ahei 393 条评论

Nutch是一个开源的搜索引擎,包括抓取,索引,搜索,不过它主要专注于抓取,下面我讲一下它的简单使用。 阅读全文…