文本语义分析拾掇进度—2013/3/15

文本语义分析整理进度—2013/3/15

由于项目要求，最近一直在看文本相似度的检测和计算。虽然进展不大，还是把最近做的整理一下，以便以后的学习用。

一中文分词

对于中文分词，主要是利用了开源的c#软件，（资料在博客http://blog.****.net/caiye917015406/article/details/8634547）

http://gforge.osdn.net.cn/frs/?group_id=96。一个完整可用的中文分词组件。包含中英文,数字混合识别,非常感谢开发者的共享；其中人名基于简单的"姓+名"的识别方式，并不可靠。基于正向最大匹配算法，准确性不是很高。另外的整个组件的架构和代码质量比较一般。但基于国内.net开发者的现状。能做到这个程度而且还是开源的，已属不易。

当然对于其中的算法还没用完全看懂，只是稍作了修改，先用着。对于此博客中其他的算法，还没做研究，以后需要时在做探究。同时，在此算法中，还未去除语气词等，留作接口。

二 VSM基于空间向量的文本相似度（http://blog.****.net/felomeng/article/details/4024078）

这个没有利用原文作者的程序，通过前期分词的结果，将VSM用c#实现，得到的结果有待进一步考虑。

三语义相似度分析

这一块自己还没有用c#实现，不过对于基于知网的语义分析的思想大体上有了个了解，感觉此算法对于目前我做的项目，有一定差距，所以，暂时放一下。http://blog.****.net/caiye917015406/article/details/8638774 自己整理的资料大体都在这里。

这一块在做简单的的处理，进行测试后，就开始做图片相似度的计算。

文本语义分析拾掇进度—2013/3/15

相关推荐