Coursera台大机器学习技法课程笔记09-Decision Tree

              这是我们已经学到的(除Decision Tree外)

            Coursera台大机器学习技法课程笔记09-Decision Tree

           下面是一个典型的decision tree算法,有四个地方需要我们选择:

           Coursera台大机器学习技法课程笔记09-Decision Tree

          接着介绍了一个CART算法:通过decision stump分成两类,衡量子树的标准是,将数据分成两类后,这两类数据的纯度(purifying)。

           Coursera台大机器学习技法课程笔记09-Decision Tree

    下面是不纯度的衡量:

    Coursera台大机器学习技法课程笔记09-Decision Tree

   最后是什么时候停下来:

   Coursera台大机器学习技法课程笔记09-Decision Tree

  decision tree可能overfitting,需减小Ein和叶子的数目(表示树的复杂度)

 Coursera台大机器学习技法课程笔记09-Decision Tree

 如果缺少某一特征的话,可找一替代特征:

 Coursera台大机器学习技法课程笔记09-Decision Tree

将CART和Adaboost进行对比:Adaboost是在整个平面上切割,CART是在已切好的平面继续切割(条件切割):

Coursera台大机器学习技法课程笔记09-Decision Tree

  这一节课老师讲的比较笼统,详细可参考统计学习方法。