文本语义分析拾掇进度—2013/3/15
文本语义分析整理进度—2013/3/15
由于项目要求,最近一直在看文本相似度的检测和计算。虽然进展不大,还是把最近做的整理一下,以便以后的学习用。
一 中文分词
对于中文分词,主要是利用了开源的c#软件,(资料在博客http://blog.****.net/caiye917015406/article/details/8634547)
http://gforge.osdn.net.cn/frs/?group_id=96。一个完整可用的中文分词组件。包含中英文,数字混合识别,非常感谢开发者的共享;其中人名基于简单的"姓+名"的识别方式,并不可靠。基于正向最大匹配算法,准确性不是很高。另外的整个组件的架构和代码质量比较一般。但基于国内.net开发者的现状。能做到这个程度而且还是开源的,已属不易。
当然对于其中的算法还没用完全看懂,只是稍作了修改,先用着。对于此博客中其他的算法,还没做研究,以后需要时在做探究。同时,在此算法中,还未去除语气词等,留作接口。
二 VSM基于空间向量的文本相似度(http://blog.****.net/felomeng/article/details/4024078)
这个没有利用原文作者的程序,通过前期分词的结果,将VSM用c#实现,得到的结果有待进一步考虑。
三 语义相似度分析
这一块自己还没有用c#实现,不过对于基于知网的语义分析的思想大体上有了个了解,感觉此算法对于目前我做的项目,有一定差距,所以,暂时放一下。http://blog.****.net/caiye917015406/article/details/8638774 自己整理的资料大体都在这里。
这一块在做简单的的处理,进行测试后,就开始做图片相似度的计算。