码迷,mamicode.com
首页 > 其他好文 > 详细

搜索技术(2)

时间:2015-02-19 20:43:20      阅读:310      评论:0      收藏:0      [点我收藏+]

标签:

 

自然语言处理

  基于规则

  基于统计

 

统计语言模型

 

中文分词

  梁南元--查字典

  郭进--统计语言模型

  Basis Technology 通用分词器

  葛显平、朱安

 

隐含马尔科夫模型

 

信息熵

 

贾里尼克、香农、雅各布森、乔姆斯基、弗兰德、哈克特

 

统计语音识别和自然语言处理

 

雅让斯基、布莱尔


 

 

阿米特.辛格

 


 

 

搜索引擎:自动下载尽可能多的网页---》建立快速有效的索引---》根据相关性对网页进行公平准确的排序

 

搜索原理:下载----》索引-----》排序

 

布尔代数:George Boole:与、或、非

莱布尼兹

 


 

图论:网络爬虫:遍历

 

欧拉----图论

 

DFS:深度优先搜索、广度优先搜索

 

哈希表

 

如何构建一个网络爬虫?----》如何在有限时间里最多地爬下最重要的网页?

 

网络爬虫:分布式系统:成千上万的服务器

 

浏览器内核工程师---》网络爬虫解析程序

 


 网页排名技术

 

PageRank:

  网页链接、承认和依赖

  二维矩阵相乘

  稀疏矩阵计算

  2003:MapReduce

  整个互联网--整体--系统论

  相关性:网页内容与查询语句、网页之间的联系

 


查询与内容相关性

 

关键词的频率:单文本词频:Term Frequency

 

萨尔顿 Salton IDF

 


 

 

地图和本地搜索:有限状态机和动态规划

 

地址匹配技术、有限状态机

 

有限状态机:AT&T:莫瑞、皮耶尔、瑞利

 

全球导航和动态规划(Dynamic Programming)

  寻找全程最短路线---》寻找局部最短路线


 

辛格、马特.克茨、马丁.柯斯尔基

 

作弊问题:Spam

 

乌迪.曼波、费尔南多.皮耶尔


 

密码学

 

凯撒大帝

 

亚德丽:独臂海盗:中国黑室

 

RSA:李维斯特Rivest、沙米尔Shamir、阿德尔曼Adleman

 

香农:信息论,信息检索,现代密码学

冯诺依曼:现代电子计算机、博弈论


 

搜索引擎反作弊

 

搜索引擎优化者、SEO

余弦距离、余弦定理


 

 

最大熵原理、最大熵模型

 


 

 

柯林斯

布莱尔


 

马尔科夫链:贝叶斯网络

  主题、概念、关键词:Phil Cluster

 

搜索技术(2)

标签:

原文地址:http://www.cnblogs.com/defineconst/p/4296033.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!