Lucene4.0+索引的效率有关问题
Lucene4.0+索引的效率问题
最近用Lucene4.0做全文检索:公司大约有700GB左右的文件,格式有PDF、word、ppt、图片及其它等等,文件数量大约在70万个左右。我用多线程调用Tika来解析文件,解析后的文本文件写入本地磁盘,耗时大概1-2天的样子。然后用Lucene4.0对做索引,索引代码如下:
第一次索引也要2天多,请问这个效率正常吗?能有提高索引速度的方法吗?我查了好多资料,多数都是基于Luncene2.2或者更老的,基本不怎么实用。
最后,我的所有资料都是英文的,没有中文及其它文字。所以不涉及中文分词
------解决方案--------------------
700个G索引48个小时,我觉得还可以接受吧。
而且你也不是每天都需要索引700个G,只是第一次初始化的时候需要为700个G文件索引
------解决方案--------------------
第一次 它要建索引所以肯定慢撒。。
最近用Lucene4.0做全文检索:公司大约有700GB左右的文件,格式有PDF、word、ppt、图片及其它等等,文件数量大约在70万个左右。我用多线程调用Tika来解析文件,解析后的文本文件写入本地磁盘,耗时大概1-2天的样子。然后用Lucene4.0对做索引,索引代码如下:
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_40);
IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_40, analyzer);
iwc.setRAMBufferSizeMB(1024.0);
//Got OutofMemory issue if we don't setMaxBufferedDocs
iwc.setMaxBufferedDocs(100);
writer = new IndexWriter(dir, iwc);
第一次索引也要2天多,请问这个效率正常吗?能有提高索引速度的方法吗?我查了好多资料,多数都是基于Luncene2.2或者更老的,基本不怎么实用。
最后,我的所有资料都是英文的,没有中文及其它文字。所以不涉及中文分词
------解决方案--------------------
700个G索引48个小时,我觉得还可以接受吧。
而且你也不是每天都需要索引700个G,只是第一次初始化的时候需要为700个G文件索引
------解决方案--------------------
第一次 它要建索引所以肯定慢撒。。