Nutch有关框架视频教程

Nutch相关框架视频教程

第一讲
视频地址（52分钟）

1、 通过nutch，诞生了hadoop、tika、gora。

2、 nutch通过ivy来进行依赖管理（1.2之后）。

3、 nutch是使用svn进行源代码管理的。

4、 lucene、nutch、hadoop，在搜索界相当有名。

5、 ant构建之后，生成runtime文件夹，该文件夹下面有deploy和local文件夹，分别代表了nutch的两种运行方式。

6、 nutch和hadoop是通过什么连接起来的？通过nutch脚本。通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。

7、 nutch入门重点在于分析nutch脚本文件。

第二讲
视频地址（52分钟）

1、 git来作为分布式版本控制工具，github作为server。bitbucket.org提供免费的私有库。

2、 nutch的提高在于研读nutch-default.xml文件中的每一个配置项的实际含义（需要结合源代码理解）。

3、 定制开发nutch的入门方法是研读build.xml文件。

4、 命令：

apt-get install subversion

svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/

cd release-1.6

apt-get install ant

ant

cd runtime/local

mkdir urls

vi urls/url.txt 并输入http://blog.tianya.cn

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

vi release-1.6/conf/nutch-site.xml 增加http.agent.name配置

cd ../../release-1.6

ant

cd runtime/local

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

删除报错的文件夹

nohup bin/nutch crawl urls -dir data -depth 1 -threads 100 &

第三讲
视频地址（52分钟）

1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么？

2、 命令：

crawldb

bin/nutch | grep read

bin/nutch readdb data/crawldb -stats

bin/nutch readdb data/crawldb -dump data/crawldb/crawldb_dump

bin/nutch readdb data/crawldb -url http://4008209999.tianyaclub.com/

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN_m 1

segments

crawl_generate：

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nocontent -nofetch -noparse -noparsedata –noparsetext

crawl_fetch：

bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump-nocontent -nogenerate -noparse -noparsedata –noparsetext

content：

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -noparse -noparsedata –noparsetext

crawl_parse：

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -nocontent –noparsedata –noparsetext

parse_data：

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -nocontent -noparse –noparsetext

parse_text：

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -nocontent -noparse -noparsedata

全部：

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump

segments

bin/nutch readseg -list -dir data/segments

bin/nutch readseg -list data/segments/20130325043023

bin/nutch readseg -get data/segments/20130325042858 http://blog.tianya.cn/

linkdb

bin/nutch readlinkdb data/linkdb -url http://4008209999.tianyaclub.com/

bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump

第四讲
视频地址（60分钟）

1、 深入分析nutch的抓取周期

inject

generate -> fetch ->parse ->update db

invertlinks

2、 3大merge和3大read命令阐释

bin/nutch | grep merge

bin/nutch | grep read

相关推荐