【文本分类】向量空间模型的有关问题

【文本分类】向量空间模型的问题
各位大侠,

我首先从样本数据中,构建各个类别的关键词向量。
例如:有C1,C2,...等几个类别,
每个类别分别有n1,n2,...等数量的关键词,
而且,各个类别的每个关键词都有浮点型的权重(该词代表该类别的程度)。


当来了一个新的文本时,需要对其进行分类。
首先,构建该文本的关键词向量,并设置每个关键词的权重。


然后,就用余弦相似度计算距离当前文本最近的几个类别,来实现分类。


现在发现有个问题:
有些类别的关键词数量相对比较少,
当来了一个新文本时,虽然该文本的实际类别跟某个样本类别不相关,
但由于该样本类别的关键词数量相对较少,而且该新文本的关键词跟该样本类别的关键词有很大的重合,
从而,将该新文本错分为了某个类别。


请问,如何处理这种由于样本类别的关键词数量不一致(我也没有做关键词权重的规范化),
带来的错分类问题呢?




------解决方案--------------------
三步:
1聚类;
2判别;
3验证。