怎么文本和一个主题的相关度?大家有什么好的算法吗?请大家教教小弟我
如何求一个文本和一个主题的相关度?大家有什么好的算法吗?请大家教教我
比如我现在的主题关键字是 “c语言”,有一个待分析的文本。如何判断这个文本是否和c语言相关度呢?
我现在唯一能想到的就是对文本进行分词,然后统计“c语言”在文本中出现的此时,除以总词数,得到相关度的值。
但这个办法不太好,请高手赐教更好的方法呀,最好是好理解的。
------解决方案--------------------
字符串匹配吧。匹配次数多的热度高。
------解决方案--------------------
多增加几个tag,至于哪些tag那就只能个人观点了。
做个权值,最后再比较吧。
权值计算可能繁琐了些,如果不考虑特殊癖好,可以都设为1
比如我现在的主题关键字是 “c语言”,有一个待分析的文本。如何判断这个文本是否和c语言相关度呢?
我现在唯一能想到的就是对文本进行分词,然后统计“c语言”在文本中出现的此时,除以总词数,得到相关度的值。
但这个办法不太好,请高手赐教更好的方法呀,最好是好理解的。
------解决方案--------------------
字符串匹配吧。匹配次数多的热度高。
------解决方案--------------------
多增加几个tag,至于哪些tag那就只能个人观点了。
做个权值,最后再比较吧。
权值计算可能繁琐了些,如果不考虑特殊癖好,可以都设为1