网络爬虫Larbin的学习(1)——larbin的配置

网络爬虫Larbin的学习(一)——larbin的配置
Larbin是一款历史比较悠久的网络爬虫程序,它基于C/C++编写。

目前它可以在linux下运行,对于windows下的运行情况目前尚不清楚(可能需要进行修改)

对于网络爬虫的基础知识,在此不做太多的介绍,本文只对爬虫的配置进行解说。

由于larbin的年头比较远(作者从上世纪开始编写),里面难免有一些与现在系统不一致的情况(作者于2003年停止了维护),所以我们在配置中需要修改它的源代码。

首先到它的官方网站:
http://larbin.sourceforge.net/index-eng.html

下载larbin,这个程序是由法国人写的,因此对于Chinese来说一定要进英文版的首页

由于下载到的内容是他的源代码,而非二进制版,所以我们要做编译。

(1)首先在linux 的CMD下,运行./configure,它会生成一系列的文件,当然,在结尾处可能会有错误,不过这个没有关系

(2)把所有源文件中包含“#include<iostream.h>”的内容改变为“#include<iostream>”,并且在文件中加入“using namespace std;”原因就不说了。

检查哪个文件包含了这句话,可以用grep实现:

grep -nR "include<iostream.h>" ./

具体的修改还没有好的办法。

(3)此时再运行make命令,如果不出意外,系统会报一个重定义的错误。这时我们可以找到%LARBIN_HOME%/adsn/interal.h,将其中冲突的那个函数注释掉。

(4)对于一些系统还说,可能还需要安装一个makedepend的东西,在ubuntu下,使用如下命令:
sudo apt-get install xutils-dev

(5)对于本人来说,到这里我的larbin就可以使用了。

下一节将重点讲一下larbin的配置。