阅读英文文章时有时会出现不少这篇文章专有的一些单词,这些单词在其他地方不太可能会使用到,但是在阅读这篇文章时使用的频率可能会比较大,于是想能不能做一个工具,当你给定文章的url时,它将这篇文章中出现次数较多的那些单词统计出来。这样当你把这些单词的意义搞明白,在读这篇文章会不会压力小很多?
那么做这个工具的思路如下:
首先必须能够根据给定的url获取网页的正文信息或者网页的html文件;...
分类:
Web程序 时间:
2015-08-18 19:28:58
阅读次数:
2740
我们以气温统计和词频统计为例,讲解以下三种用户自定义函数。用户自定义函数什么时候需要用户自定义函数呢?和其它语言一样,当你希望简化程序结构或者需要重用程序代码时,函数就是你不二选择。Pig的用户自定义函数可以用Java编写,但是也可以用Python或Javascript编写。我们接下来以Java为例...
分类:
其他好文 时间:
2015-07-30 22:58:20
阅读次数:
166
定义字典树,又称单词查找树,Trie树,是一种树形结构,典型应用是用于统计,排序和保存大量的字符串,所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度的减少无谓的字符串比较,查询效率比哈希表高。解释
这个图片比较经典
就是在每一次边存的是字符,点标记着个点是否之前的边的字符都存在
如图存在的字符串有 abc abcd abd。。。。代码#inclu...
分类:
其他好文 时间:
2015-07-29 21:29:35
阅读次数:
135
需求:实现一种类似于京东的自动提示功能。
在传统数据库中,有一种模糊查询。。类似于 keyword like "京东%" ,然后统计数量,返回给前端。。但,这样有一个问题。如果该字段非词性的。精确性和效率性不高。
solr中TermsComponent组件完美的解决了这么一个方案,能够统计指定搜索域中 所有词的 信息。类似于lucene Term查询。
刚研究了会solrj的TermsComponent :http://wiki.apache.org/solr/TermsComponent...
分类:
其他好文 时间:
2015-07-28 18:28:40
阅读次数:
178
定义:也被称为线索或词搜索树,Trie树。它是一个树结构,它是哈希树的变体。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以常常被搜索引擎系统用于文本词频统计。它的长处是:利用字符串的公共前缀来降低查询时间,最大限度地降低无谓的字符串比較,查询效率比哈希表高。性质:它有3个基本性...
分类:
其他好文 时间:
2015-07-28 10:14:37
阅读次数:
104
字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
它有3个基本性质:
1.根节点不包含字符,除根节点外每一个节点都只包含一个字符;
2.从根节点到某一...
分类:
其他好文 时间:
2015-07-25 00:16:25
阅读次数:
144
1. 什么是trie树
1.Trie树 (特例结构树)
Trie树,又称单词查找树、字典树,是一种树形结构,是一种哈希树的变种,是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
Trie的核心思想是...
分类:
编程语言 时间:
2015-06-25 23:06:26
阅读次数:
439
2.1基于词频统计——词位置加权的搜索引擎利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想,其技术发展也最为成熟,是第一阶段搜索引擎的主要排序技术,应用非常广泛,至今仍是许多搜索引擎的核心排序技术。其基本原理是:关键词在文档中词频越高,出现的位置越重要,则被认为和检索词的相关性越...
分类:
编程语言 时间:
2015-06-19 06:39:07
阅读次数:
218
创建目录上传英文测试文档(如果已有则无需配置)。a.dfs上创建input目录hadoop@ubuntu-V01:~/data/hadoop-2.5.2$bin/hadoop fs -mkdir -p inputb.把hadoop目录下的README.txt拷贝到dfs新建的input里hadoop...
分类:
系统相关 时间:
2015-06-15 23:42:45
阅读次数:
346
参考教程在Hadoop上使用庖丁解牛(较复杂,并未采用,可以之后试试)http://zhaolinjnu.blog.sohu.com/264905210.htmlLucene3.3、Lucene3.4中文分词——庖丁解牛分词实例(屈:注意版本)http://www.360doc.com/conten...
分类:
其他好文 时间:
2015-06-15 23:38:44
阅读次数:
610