码迷,mamicode.com
首页 > 编程语言 > 详细

百度面试题 字符串相似度 算法 similar_text 和页面相似度算法

时间:2016-03-03 12:49:36      阅读:187      评论:0      收藏:0      [点我收藏+]

标签:

在百度的面试,简直就是花样求虐。

首先在面试官看简历的期间,除了一个自己定义字符串相似度,并且写出求相似度的算法。

。。。这个确实没听说过,php的similar_text函数也是闻所未闻的。之前看seo的时候,到简单了解了一下页面的相似度,百度算法中很常见的需要判断页面是否是重复的,重复的肯定就不收录了,做seo很重的一个工作就是写原创文章,以保持网站的更新,吸引百度的收录,以增加流量。

页面的相似度,是纯数学的,因为百度的主要是收录中文,所以中文需要先拆词,然后计算词语的在文章中出现的频度。然后这些词组加权,求出一个向量,然后求两个页面的余弦值。这个东西反正肯定不会,扯淡还是扯的。

这里的字符串的相似度,是譬如abacbcd和abcbcd之类的没有意义的纯字符串。

既然让自己定义,肯定定义一个简单的了,主要就是查找最大相同的字符串及长度。(漏掉好多可能)

回来自己查了一下。才发现如下:

这个similar_text分为三步

第一步

以后接着写。

 

百度面试题 字符串相似度 算法 similar_text 和页面相似度算法

标签:

原文地址:http://www.cnblogs.com/etata/p/5237873.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!