Eclipse停配置Heritrix1.14.4
最近在看邱哲等人编著的《开发自己的搜索引擎Lucene+Heritrix》一书,里面有一章专门讲Hertrix的配置问题的,可是感觉讲得很麻烦,其实很简单。故将自己的配置方法整理下:
由于Hertrix的是开源的网络爬虫工具,具有很强的可扩展性,开发者可以根据自己的抓取逻辑对其源码进行修改。但是如果你仅是想利用Hertrix进行网页的抓取,那么配置就更简单了。只需下载到SourceForge网站上下载Heritrix的jar包就ok了,但是如果你还想对其源码进行修改来研究Heritrix的实现那可以下载源代码包。
1、无需修改源码的配置方法
1)解压下载到的heritrix-1.14.4.zip文件,目录结构如下:
将lib目录的jar包和当前目录下的hertrix-1.14.4.jar文件导入到Eclipse工程的Build Path下,然后将conf/和webapps/两个目录拷贝到工程下面即可。
2)修改conf/目录下的heritrix.properties文件,找到heritrix.cmdline.admin所在行,在后面添加“用户名:密码”
3)运行org.archive.crawler.Heritrix类,如果出现:
11:29:36.768 EVENT Starting Jetty/4.2.23
11:29:36.935 WARN!! Delete existing temp dir C:\Users\ADMINI~1.ZGC\AppData\Local\Temp\Jetty_127_0_0_1_8080__ for WebApplicationContext[/,jar:file:/D:/IR/Lucene/HeritrixDemo/webapps/admin.war!/]
11:29:37.098 EVENT Started WebApplicationContext[/,Heritrix Console]
11:29:37.339 EVENT Started SocketListener on 127.0.0.1:8080
11:29:37.339 EVENT Started org.mortbay.jetty.Server@a01335
Heritrix version: 1.14.4
说明配置成功!然后在浏览器中输入http://localhost:8080然后输入用户名和密码即可登入!
2、利用源码的配置方法
利用源码在Eclipse下配置有些麻烦,但只是相对利用Jar包的配置方法而言的~_~
1、将heritrix-1.14.4.jar文件利用WinRAR工具解压出来,目录结构如下:
按照该目录结构配置eclipse工程即可。
2、将heritrix-1.14.4-src.zip解压,解压后目录结构如下:
然后将lib/目录下的所有.jar包全部导入到工程的BuildPath下 ,然后将src/目录下的所有目录拷贝到工程的src目录下以及conf/目录、webapps/目录拷贝到工程下即可。同样修改conf/目录下的heritrix.properties文件。
3、(关键)将刚才解压的jar包中的除了源代码外的所有文件都拷贝到src/目录下,配置完毕!
配置完成后,到eclipse工程下刷新下,即可运行!