关于Lucene分词,我想过做一个小的Lucene分词...结合paoding分词

关于Lucene分词,我想过做一个小的Lucene分词...结合paoding分词

问题描述:

[size=small][color=blue]关于Lucene分词,我想过做一个小的Lucene分词.
我用的是paoding分词..
我想在加一个算法每遇到大写字母时分词.例如 XpressMusic 要分词为成 xpress 和music[/color][/size]
[b]问题补充:[/b]
[quote]算出大写字母的区间,当读到部分的时候,对其进行判断,然后其余的就跟基于空格的分词一样了,不是吗
hupy (初级程序员) 2009-08-31
[/quote]

怎样在compass结合自己实现的这个算法呢..

可以说详细点吗.谢谢哈

compass仅仅是是一个框架,跟lucene是没有关系的,如果想是想上面的算法,要修改lucene的源代码,自己写一个filter类,在过滤的时候碰到大写字母分词就是了,这个需要稍微了解一下lucene的源代码了!!!!

算出大写字母的区间,当读到部分的时候,对其进行判断,然后其余的就跟基于空格的分词一样了,不是吗