码迷,mamicode.com
首页 >  
搜索关键字:词频统计    ( 846个结果
词频统计及效能分析
1. 博客开头给出自己的基本信息,格式建议如下: 学号:2017*****7254; 姓名:薛思语; 码云项目仓库:https://gitee.com/xsy990611/master/blob/master/word_freq.py 2. 程序分析,对程序中的四个函数做简要说明。要求附上每一段代码 ...
分类:其他好文   时间:2019-04-07 20:34:50    阅读次数:183
TF-IDF
1. 文本向量化特征的不足 在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,比如在文本挖掘预处理之向量化与Hash Trick这篇文章中,我们将下面4个短文本做了词频统计: corpus=["I come to China to travel", "This is a c ...
分类:其他好文   时间:2019-04-07 18:07:57    阅读次数:161
Hive简单编程实践-词频统计
一、使用MapReduce的方式进行词频统计 (1)在hadoop根目录下创建input输入文件夹,这和在HDFS用户目录下创建input文件夹是两件不同的事情。 (2)在input文件夹中创建两个测试文件file1.txt和file2.txt。 知识点延伸: (3)调用MapReduce程序对in ...
分类:其他好文   时间:2019-04-07 00:20:34    阅读次数:261
使用jieba库与wordcloud库第三方库进行词频统计
一、jieba库与wordcloud库的使用 1.jieba库与wordcloud库的介绍 jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组;除此之外,jieba 库还提供了增加自定义中文单词的功能。 wordcloud是优秀的 ...
分类:其他好文   时间:2019-04-04 00:04:50    阅读次数:376
jieba库及词频统计
1 import jieba 2 txt = open("C:\\Users\\Administrator\\Desktop\\流浪地球.txt", "r", encoding='utf-8').read() 3 words = jieba.lcut(txt) 4 counts = {} 5 for ...
分类:其他好文   时间:2019-04-03 23:49:43    阅读次数:232
MapReduce词频统计
自定义Mapper实现 自定义Reducer实现 编写Driver类 本地测试开发 上面使用的都是基于 的,那么如何使用本地呢? 强烈建议 使用 进行测试和开发,非常高效,Debug也很方便。 代码升级 使用代码,删除 的output目录 map端聚合 处理逻辑和Reducer完全一模一样, 即可! ...
分类:其他好文   时间:2019-04-03 12:36:05    阅读次数:167
词频统计
1.个人信息 学号:2017 7238。 姓名:尚志尊 我的码云仓库地址:https://gitee.com/shangzhizun/word_frequency/tree/SE7238 2.程序分析 首先通过传入dst参数,读取文件,最终返回dst文件的字符串形式bvffer。 将bvffer字符 ...
分类:其他好文   时间:2019-04-01 18:40:30    阅读次数:212
jieba库的使用与词频统计
1、词频统计 (1)词频分析是对文章中重要词汇出现的次数进行统计与分析,是文本 挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。 (2)安装jieba库 安装说明代码对 Python 2/3 均兼容 全自动安装:eas ...
分类:其他好文   时间:2019-04-01 11:52:46    阅读次数:195
词频统计
姓名:王宁 学号:2017 7097 码云仓库:https://gitee.com/q2276144530/word_frequency/tree/SE7097 程序分析 1. 读取文件到缓冲区 2.处理缓冲区 bvffer代码,统计每个单词的频率,存放在字典word_freq 3.设置输出函数,输 ...
分类:其他好文   时间:2019-03-27 21:11:29    阅读次数:211
复合数据类型,英文词频统计
1.列表,元组,字典,集合分别如何增删改查及遍历。 使用append()方法来添加列表项(仅支持增加一个元素),extend()增加一个列表,insert()根据索引添加元素 del 根据索引删除元素,或者使用remove()删除指定值的元素,pop()根据索引删除元素 对列表数组某元素进行赋值,以 ...
分类:其他好文   时间:2019-03-25 21:53:03    阅读次数:168
846条   上一页 1 ... 7 8 9 10 11 ... 85 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!