例证Breiman

例子Breiman
介绍
快速的介绍怎么运行Breiman例子。在Breiman页实现了测试步骤描述。
如下是基础的算法:
。重复I次迭代
。每次迭代执行:
     。有10%的数据从测试数据中分离
     。编译2个独立的森林,用来训练集合。一个使用m=int(log2(M)+1) (称为随机输入),另外一个使用m=1(称为单一输入)
     。选择一个森林,给出最低的误差结果估计,和计算测试误差结果
     。计算测试的误差结果,使用单一输入森林,这里证明平坦的m=1,给予每个森林比较大的m值做比较
     。计算平均测试误差,使用每个森林中的树。这里将指出怎样执行一个单一决策树

步骤
下载数据
#lass : http://archive.ics.uci.edu/ml/datasets/Glass+Identification
# breast cancer : http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)
# diabetes : http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes
# sonar : http://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+(Sonar,+Mines+vs.+Rocks)
# ionosphere : http://archive.ics.uci.edu/ml/datasets/Ionosphere
# vehicle : http://archive.ics.uci.edu/ml/datasets/Statlog+(Vehicle+Silhouettes)
# german : http://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)

将数据放到HDFS
$HADOOP_HOME/bin/hadoop fs -put <PATH TO DATA> testdata


编译
进到$MAHOUT_HOME/,执行
mvn install -DskipTests


生成数据文件
根据glass dataset (glass.data),执行
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/core/target/mahout-core-<VERSION>-job.jar org.apache.mahout.df.tools.Describe -p testdata/glass.data -f testdata/glass.info -d I 9 N L



运行例子
$HADOOP_HOME/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-<VERSION>-job.jar org.apache.mahout.df.BreimanExample -d testdata/glass.data -ds testdata/glass.info -i 10 -t 100

选择构建100树(参数-t),重复测试10次迭代(参数-i)


原文地址:https://cwiki.apache.org/confluence/display/MAHOUT/Breiman+Example