如google、百度底部的“相关搜索:”实现思路是什么?怎么提取出这些关键词
如google、百度底部的“相关搜索:”实现思路是什么?如何提取出这些关键词?
由于项目的需要,最近要在全文检索中添加如百度,google页面底部一样,如在百度里输入“相关搜索 实现思路”,则底部显示:
相关搜索 林生相关搜索. .相关搜索lx2795 相关搜索.lx8981 浩瀚相关搜索. 百度相关搜索.134
百度相关搜索8981. 刷百度相关搜索6907 1633相关搜索. 百度相关搜索.8086 相关搜索 思路
从结果中看:
1、它并不是简单的用like模糊查询匹配
2、对于用户输入搜索关键词的数据是海量级的,如我要找某个主题相关的信息,可能我会输入不同的关键词去搜索该主题相关的内容,这样每次搜索的关键词又不一样,有的可能就是多了或少了一两个字,或者改变了搜索关键词询问的方式而已。但它们都不可能是完全相等的,那对于这些关键词又是如何来提取满足用户需求的来展示给用户呢?
------解决方案--------------------
------解决方案--------------------
估计是有一个 汉字分词技术 分出海量汉字词典,每个词条再对应具体的搜索.
这不只是简单技术问题,而背后是要有海量的金钱堆出巨大量的服务器来处理的.
------解决方案--------------------
你可以看看 中文分词技术
------解决方案--------------------
------解决方案--------------------
关注,以前用过公司现成的东西
------解决方案--------------------
是不是分词的时候,加入了近义词之类的考虑,还有对查询进行扩展
------解决方案--------------------
我的一个思路是:
每个用户搜索的关键词为一组,如:
用户甲先后搜索“A”“B”“c”
用户乙先后搜索“A”“C”“D”
用户丁..........
那么
AB 1
ba 1
Ac 2
ca 2
BC 1
cb 1
AD 1
da 1
Cd 1
dc 1
所以得出相关搜索
a的相关搜索“c”“b”“d”
b的相关搜索“a”“c”
c的相关搜索“a”“b”“d”
d的相关搜索“a”“c”
反正是需要一个庞大的用户行为数据库来进行数据分析。不可能用近义词之类,那样根本不准确,无法获得大量新搜索关键词的知识信息。
------解决方案--------------------
关注,
------解决方案--------------------
学习一下。
------解决方案--------------------
我最近一个项目也用到类似的技术,不知道怎么处理呢还
由于项目的需要,最近要在全文检索中添加如百度,google页面底部一样,如在百度里输入“相关搜索 实现思路”,则底部显示:
相关搜索 林生相关搜索. .相关搜索lx2795 相关搜索.lx8981 浩瀚相关搜索. 百度相关搜索.134
百度相关搜索8981. 刷百度相关搜索6907 1633相关搜索. 百度相关搜索.8086 相关搜索 思路
从结果中看:
1、它并不是简单的用like模糊查询匹配
2、对于用户输入搜索关键词的数据是海量级的,如我要找某个主题相关的信息,可能我会输入不同的关键词去搜索该主题相关的内容,这样每次搜索的关键词又不一样,有的可能就是多了或少了一两个字,或者改变了搜索关键词询问的方式而已。但它们都不可能是完全相等的,那对于这些关键词又是如何来提取满足用户需求的来展示给用户呢?
------解决方案--------------------
------解决方案--------------------
估计是有一个 汉字分词技术 分出海量汉字词典,每个词条再对应具体的搜索.
这不只是简单技术问题,而背后是要有海量的金钱堆出巨大量的服务器来处理的.
------解决方案--------------------
你可以看看 中文分词技术
------解决方案--------------------
------解决方案--------------------
关注,以前用过公司现成的东西
------解决方案--------------------
是不是分词的时候,加入了近义词之类的考虑,还有对查询进行扩展
------解决方案--------------------
我的一个思路是:
每个用户搜索的关键词为一组,如:
用户甲先后搜索“A”“B”“c”
用户乙先后搜索“A”“C”“D”
用户丁..........
那么
AB 1
ba 1
Ac 2
ca 2
BC 1
cb 1
AD 1
da 1
Cd 1
dc 1
所以得出相关搜索
a的相关搜索“c”“b”“d”
b的相关搜索“a”“c”
c的相关搜索“a”“b”“d”
d的相关搜索“a”“c”
反正是需要一个庞大的用户行为数据库来进行数据分析。不可能用近义词之类,那样根本不准确,无法获得大量新搜索关键词的知识信息。
------解决方案--------------------
关注,
------解决方案--------------------
学习一下。
------解决方案--------------------
我最近一个项目也用到类似的技术,不知道怎么处理呢还