词频统计: textFile包含了多行文本内容: textFile.flatMap(line => line.split(” “))会遍历textFile中的每行文本内容,当遍历到其中一行文本内容时,会把文本内容赋值给变量line,并执行Lamda表达式line => line.split(” “) ...
分类:
其他好文 时间:
2020-02-11 09:32:45
阅读次数:
65
摘要 通过实现MapReduce计算结果保存到MySql数据库过程,掌握多种方式保存计算结果的技术,加深了对MapReduce的理解; Api 文档地址:http://hadoop.apache.org/docs/current/api/index.html maven资源库:https://mvn ...
分类:
数据库 时间:
2020-02-09 23:58:39
阅读次数:
155
字典树,即Trie树,又称单词查找树或键树,是一种树形结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。 //leetcode submit region begin(Prohibi ...
分类:
其他好文 时间:
2020-02-07 12:49:56
阅读次数:
73
又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。 模板题: 代码 #includ ...
分类:
其他好文 时间:
2020-02-06 14:57:24
阅读次数:
76
用python实现词频统计时比较简单,但是需要区分是英文文本还是中文文本,两种不同的文本用到的方法稍微有点区别。 对英文文本进行统计: def getText(): txt = open("word.txt", "r").read() txt = txt.lower() for ch in '`~! ...
分类:
编程语言 时间:
2020-02-03 15:22:32
阅读次数:
64
安装jieba:pip install jieba 原理: 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 ...
分类:
编程语言 时间:
2020-02-02 19:34:51
阅读次数:
263
今天学习自然语言的算法 TF-IDF 算法 :关键词提取 TF-IDF的主要思想就是:如果某个词在一篇文档中出现的频率高,也就是TF高;在语料库中其他的文档中很少出现,就是DF低,也就是IDF高,则认为这个词具有很好的类区分能力。 TF为词频(Term Frequency),表示词t在文档d中出现的 ...
分类:
其他好文 时间:
2020-02-02 00:59:39
阅读次数:
86
不需要前置技能。 是 AC自动机 的前置技能。 Trie,又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应 用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索 引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时 间,最大限度地减少无谓的 ...
分类:
其他好文 时间:
2020-01-20 22:50:56
阅读次数:
70
目标 对历年美国总统就职演说词频分析,并绘制云图 准备 分析工具:matplotlib,wordcloud 数据文档:美国历届总统就职演说英文版文档 这些文档,放到了后面 效果 分析 1、出现最多的是government,第二是People 2、出现了很多new hope great well be ...
分类:
其他好文 时间:
2020-01-12 13:29:10
阅读次数:
61
#Hamlet词频统计(含Hamlet原文文本) #CalHamletV1.py def getText(): txt = open("hamlet.txt", "r").read() txt = txt.lower() for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘ ...
分类:
其他好文 时间:
2020-01-10 20:14:25
阅读次数:
283