文本分类资料收集

文本分类过程:http://www.cnblogs.com/luchen927/archive/2012/02/14/2349551.html;

语料库资源:

     1:搜狗中文新闻语料库:http://www.sogou.com/labs/dl/c.html;

    2:博客园园友自行收集的语料库:http://www.cnblogs.com/finallyliuyu/archive/2010/09/10/1823676.html;

  两者皆为新闻类信息,前者标题使用数字表示,不便于对分类结果的快速验证;后者资源在数量,准确性、平衡性方面稍欠缺。

网页正文抓取相关文章:

         1:园友蛙娃正文抓取器:http://www.cnblogs.com/onlytiancai/archive/2008/04/12/getmaincontent.html;

      2:园友finallyliuyu正文抓取器:http://www.cnblogs.com/finallyliuyu/archive/2010/09/29/1838442.html;