标签:
如果问大家做搜索核心的环节是什么,估计很多人会答分词;好的分词的确可以让内容构建索引和搜索变得更精细;到底有了一个好的分词算法是不是就能使搜索变得更精准可靠呢?但从这一段时间深入了解搜索业务知识后才发现,只有好的分词算法是完全不满足业务搜索的需要, 分词只是一个基础还需要在这基础上深入细分才能更好的体现搜索结果的精准度.
词库作为精确分词的基础,所以有一个完善的词库对内容归类和检索的精准性提供基础的保障.不过不同行业和专类其词库都有差异(所以收集和完善词库所投入的人力是非常大的).如果想精确搜索只有基础词库中不够,不同行类有不同的需求,所以需要针对词库中的词制订不同的权重维度.针对不同行业其词库存在的维度信息也不一样
实际上做不同行业的搜索都会存在相应行业的分类词,其维度权重也和具体行业有着直接关系;但是每个行业的词表现维度都需要大量的人力去整理和维护,这是一个持久不断完善的工作.
权重决定了搜索记录展现的先后,所以搜索精确性很大程度通过权重来保持其内容展现的精准性.但权重的决策需要依据词的特性来决定,一般情况下有以几种方式来制定权重的精准度
有很多情况会采用其他外部因素对权重的干扰,其实很多干扰主要是为了提高更准确的搜索结果;如在B2B,BC2行业在搜索产品的情况会考虑商家信用,销售量和评论等等.(不过有些过于商业性平台则完全从收益上去考虑愿意花多少钱,但这些多多少少都会对搜索这个公平性带来严重的影响.在这里让我想起一句话”只要冲够钱你就足够强”)
标签:
原文地址:http://my.oschina.net/ikende/blog/420926