归类Classification-维基百科例子(Wikipedia Bayes Example)
分类Classification-维基百科例子(Wikipedia Bayes Example)
介绍
这个Mahout例子的源码来自一个分类维基百科数据的导出工具,可以Naive贝叶斯或者附加的 Naive贝叶斯在Mahout的实现。下面将描述这个例子,导出维基的数据,然后分类到不同的块。这些块是根据国家进一步分类的。根据这些分割,分离器训练使能够预测,一个未曾看到过的文章被分类到那个国家。
运行例子
1.下载维基百科数据
2.解压文件,得到enwiki-latest-pages-articles.xml
3.创建目录$MAHOUT_HOME/examples/temp,拷贝这个xml到这里
4.牵出数据
我们强烈的建议,备份这个结果到另外一个目录,这样下次就不需要同样操作这个步骤如果发生意外情况
5.创建chunks到HDFS,进行如下核实
将列出所有的文件,如chunk-0001.xml...
6.基于分割的维基百科数据,创建国家
7.验证创造出的数据
你将能够看到part-r-00000这个文件
8.Train分离器
这个模型文件将能够从HDFS上的wikipediamodel目录获取到
9.Test分离器
原文连接:https://cwiki.apache.org/confluence/display/MAHOUT/Wikipedia+Bayes+Example
介绍
这个Mahout例子的源码来自一个分类维基百科数据的导出工具,可以Naive贝叶斯或者附加的 Naive贝叶斯在Mahout的实现。下面将描述这个例子,导出维基的数据,然后分类到不同的块。这些块是根据国家进一步分类的。根据这些分割,分离器训练使能够预测,一个未曾看到过的文章被分类到那个国家。
运行例子
1.下载维基百科数据
2.解压文件,得到enwiki-latest-pages-articles.xml
3.创建目录$MAHOUT_HOME/examples/temp,拷贝这个xml到这里
4.牵出数据
$MAHOUT_HOME/bin/mahout wikipediaXMLSplitter -d $MAHOUT_HOME/examples/temp/enwiki-latest-pages-articles10.xml -o wikipedia/chunks -c 64
我们强烈的建议,备份这个结果到另外一个目录,这样下次就不需要同样操作这个步骤如果发生意外情况
5.创建chunks到HDFS,进行如下核实
hadoop fs -ls wikipedia/chunks
将列出所有的文件,如chunk-0001.xml...
6.基于分割的维基百科数据,创建国家
$MAHOUT_HOME/bin/mahout wikipediaDataSetCreator -i wikipedia/chunks -o wikipediainput -c $MAHOUT_HOME/examples/src/test/resources/country.txt
7.验证创造出的数据
hadoop fs -ls wikipediainput
你将能够看到part-r-00000这个文件
8.Train分离器
$MAHOUT_HOME/bin/mahout trainclassifier -i wikipediainput -o wikipediamodel
这个模型文件将能够从HDFS上的wikipediamodel目录获取到
9.Test分离器
$MAHOUT_HOME/bin/mahout testclassifier -m wikipediamodel -d wikipediainput
原文连接:https://cwiki.apache.org/confluence/display/MAHOUT/Wikipedia+Bayes+Example