存档

文章标签 ‘vi’

nutch的分布式抓取

2010年2月12日 ahei 26 条评论

前段时间我写了一篇文章讲nutch的简单使用,是单台机器抓取,今天我讲一下nutch的分布式抓取。

由于nutch的分布式是采用hadoop,所以nutch的分布式抓取主要涉及到hadoop和nutch本身两方面的配置。 阅读全文…

我的wordpress插件

2010年1月21日 ahei 10 条评论

最近自己用wordpress把博客搭起来了,由于以前在yo2上写博客的时候,wordpress都是yo2已搭好的,插件也都是他们加的,用户不能自己上传插件,少了很多麻烦,也多了一些不方便。这次自己搭博客,由于没有以前yo2上wordpress的插件列表,只有自己根据印象一个的去找插件,找的过程中,也发现了一些比较好的插件,这里我记录下来,做备录用,也供没有搭过wordpress的同志参考。(注:以下插件根据重要性和功能强大性做基本有序排序,这些插件都可以根据名字去wordpress插件官网下载。) 阅读全文…

分类: 初级, 技术杂记

我的博客重生了

2010年1月17日 ahei 7 条评论

由于伟大的”最大公约数”整治网络, 关闭yo2上的所有博客, 我的博客http://ahei.yo2.cn便不能再访问了. 之后试了godaddy的免费空间, 崩溃的是, 安装完WordPress后竟然只能用ie才能正确显示后台管理界面, 其他浏览器都不能正确显示, 貌似没有成功加载css(不过水木网友告诉了我解决办法). 无奈, 再去找了些免费的空间, , , 很失望, 导入文章后, 都出现以下错误信息: 阅读全文…

分类: 我的生活

Nutch配置文件的加载

2009年11月30日 ahei 2 条评论

Nutch的配置文件主要有三类:

  • Nutch插件的配置文件,这些配置文件主要是在加载插件的时候由插件自己加载的,主要是filter和normalizer插件的配置文件
  • Nutch自己的配置文件,-default.xml和nutch-site.xml
  • Hadoop的配置文件,-default.xml和hadoop-site.xml

这些配置文件的加载顺序决定了它们的优先级,优先级低的会被优先级高的配置文件中的配置覆盖,所以要想配置好nutch,了解配置文件的加载顺序是必须的。下面我通过对nutch源码的剖析来看看nutch是怎样加载配置文件的。 阅读全文…

我也开博啦

2009年11月4日 ahei 没有评论

自己是一个不太喜欢写东西的人, 读书的时候最怕的就是写作文, 当然这与我文笔很差是有很大关系的, 不过最近在学习的时候, 碰到和解决了很多问题, 很想与大家分享一下, 于是乎也弄了个博客, 记录点我的所思所想, 顺便也锻炼锻炼文笔吧, 内容主要涉及emacs,,算法和数据结构,以及人工智能, 欢迎大家捧场.

分类: 我的生活