现在要做一个网页进行智能分类的程序,各位有没有好建议,该如何处理

现在要做一个网页进行智能分类的程序,各位有没有好建议
按条目组织好一定的目录结构,如新闻,下有国内,国际,社会,要闻,实事等,然后从互联网抓取网页,根据相似度进行分类,进入到相应的目录结构下,可以文件形式存储,也可存储到数据库中。
在对网页进行分类的时候,是不是要进行索引啊?

------解决方案--------------------

------解决方案--------------------
我做过, 提取纯文本, 用文本分类.
------解决方案--------------------
not necessary!
你针对的站点很少的时候,用正则表达式找出关键词就行;
多了就需要分类了,关索引什么关系呢?选取权威网页或提取领域关键词列表,对文本进行分词过滤之后,做相似度计算,分类或聚类。
------解决方案--------------------
分类:是需要先对预定语料库的进行训练成一个模型,然后利用这个模型去预测新的文本应该归入那个类别

聚类:不需要预先训练成一个模型,也不需要预先分类。而是根据文本的相似程度归为一个类。

做分类和聚类之前,先把你的中文分词做好先。
------解决方案--------------------
先分词,再作相似度计算。
需要有一个相关度的词库。

专业中文站内全文搜索技术提供商
http://www.molchina.com
本站是专业的中文全文检索产品网站,本站提供了性价比很高的全文检索产品,可以使企业很容易的实现网站站内全文搜索功能
中文分词在线演示。
http://www.molchina.com/fc.aspx