语言统计学中的几个定律,可作为设计检索的参考

30定律:出现频率最高的30个词占全文本总词数的30%
如果剔除150个最高频率的词(由于df过大被认为是停用词):倒排表记录总个数会减少25-30%
 
Zipf定律: 在自然语料库中所有term的freq(频度)排名和其freq(频度)的乘积大致是一个常数
freq_NO1 * 1 = freq_NO2 * 2 = freq_NO3 * 3 = freq_NOn * N
那也就是说排名第二多的词的频度是第一多的一半,排名第三的词频度是第一的1/3,这样以此类推
 
heaps定律,在自然语料库中不重复term的个数和语料库数据量成指数关系
 
语言统计学中的几个定律,可作为设计检索的参考
 
 
因为是指数关系,可以知道下面几个特征
1 文档数无限增大,不重复term的个数也不会趋于一个常数
2 随着文档数的增加,不重复term的增长率会有所下降,增长率渐渐趋于平稳
 
 
Benford law在自然形成的十进制数据中,任何一个数据的第一个数字d出现的概率大致log10(1+1/d)