主要内容:对通用搜索引擎的查询推荐技术的方法、评价进行了总结
具体内容:
“查询推荐”的不同英文叫法:Query Suggestion、Term Suggestion、Query Recommendation、Query Substitution、Query Rewriting
查询推荐的任务:找出和用户查询相似的query,以便更好地表达用户查询意图,供用户便捷输入
三种技术方法:
1. 基于文档的方法:通过处理query搜索出来的文档,以此作为反馈,进一步理解用户意图,扩充query
(1)全局文档分析:方法如题目
(2)局部文档分析:说一个更通用的名字,是伪相关反馈,用搜索结果的前N篇文章作为文档集合,扩展query,从伪相关文档中进行降维是一个难点,LCA等
(3)基于语言学资源的分析:说白了就是用wordnet或者hownet或者wiki来做同义词扩展
2. 基于日志的方法:日志作为用户的点击行为的记录,能够忠实的反映用户的真实意图。
(1)基于session的方法
简单地说,就是用户搜了什么之后还搜索了什么。往往最后搜索的那个query是能够满足用户当时需求的query。
这个方法,session的判定是个难点
(2)基于click的方法:点击模型
<query, click1, click2....>,这样的query和点击向量组成的数据结构,可以用一些距离函数(如:余弦距离)来计算query之间的相似度
这种方法,用户click的url很多,造成向量的维度很多,降维仍然是一个问题,两种降维途径:1. 聚类;2. 矩阵分解
(3)基于时间分布的方法
即统计query的时间分布,如:在情人节那天搜索“巧克力”的人会比较多。不过这个一般只能作为补充。
评价方法:
基本思路还是人工建立评测集合(或者找国际标准评测集合,如trec),然后算准确率、召回率、NDCG等