码迷,mamicode.com
首页 >  
搜索关键字:词频统计    ( 846个结果
学习python的第三天
用python实现词频统计时比较简单,但是需要区分是英文文本还是中文文本,两种不同的文本用到的方法稍微有点区别。 对英文文本进行统计: def getText(): txt = open("word.txt", "r").read() txt = txt.lower() for ch in '`~! ...
分类:编程语言   时间:2020-02-03 15:22:32    阅读次数:64
Trie
不需要前置技能。 是 AC自动机 的前置技能。 Trie,又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应 用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索 引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时 间,最大限度地减少无谓的 ...
分类:其他好文   时间:2020-01-20 22:50:56    阅读次数:70
三国演义人物出场统计
#Hamlet词频统计(含Hamlet原文文本) #CalHamletV1.py def getText(): txt = open("hamlet.txt", "r").read() txt = txt.lower() for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘ ...
分类:其他好文   时间:2020-01-10 20:14:25    阅读次数:283
字典树详解
字典树概述 字典树,又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。 例题: N ...
分类:其他好文   时间:2020-01-06 09:39:17    阅读次数:111
python 词云
# 导入扩展库import re # 正则表达式库import collections # 词频统计库import numpy as np # numpy数据处理库import jieba # 结巴分词import wordcloud # 词云展示库from PIL import Image # 图 ...
分类:编程语言   时间:2020-01-04 11:05:07    阅读次数:81
HMM - (补充) 参数求解之 F/B 算法细节
通过动态规划思想, 拆分子问题, 结合有向图的联合概率写法, 用到D-separation性质来 优化F/B形式,即状态转移矩阵和发射概率矩阵 ...
分类:编程语言   时间:2019-12-30 23:08:33    阅读次数:150
基于TF-IDF及朴素贝叶斯的短文本分类
概括:朴素贝叶斯分类器(Naïve Bayes classifier)是一种相当简单常见但是又相当有效的分类算法,在监督学习领域有着很重要的应用。朴素贝叶斯是建立在“全概率公式”的基础下的,由已知的尽可能多的事件A、B求得的P(A|B)来推断未知P(B|A),是的有点玄学的意思,敲黑板!!! 优点: ...
分类:其他好文   时间:2019-12-13 14:20:21    阅读次数:295
字典树 && 例题 Xor Sum HDU - 4825 (板子)
一、字典树描述:Trie树,即字典树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。 Trie的核心思想是空间换时间。利用字符 ...
分类:其他好文   时间:2019-12-07 14:45:17    阅读次数:115
7-1 词频统计 (30 分)
7 1 词频统计 (30 分) 请编写程序,对一段英文文本,统计其中所有不同单词的个数,以及词频最大的前10%的单词。 所谓“单词”,是指由不超过80个单词字符组成的连续字符串,但长度超过15的单词将只截取保留前15个单词字符。而合法的“单词字符”为大小写字母、数字和下划线,其它字符均认为是单词分隔 ...
分类:其他好文   时间:2019-11-30 09:29:19    阅读次数:192
机器学习 - 文本分析案例 - 新闻分析
文本分析概念 停用词 语料中大量出现, 无用数据, 如下类似的这种词语 Tf - 词频统计 TF 的计算方式有很多, 最常见的用 某词文章中出现次数 / 文章总词数 idf - 逆文档频率 TF - idf 关键词提取 相似度 分词 语料库 词频 词频向量 整体流程 语料清洗 (去掉停用词, 去掉大 ...
分类:其他好文   时间:2019-11-18 16:56:51    阅读次数:240
846条   上一页 1 ... 4 5 6 7 8 ... 85 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!