码迷,mamicode.com
首页 >  
搜索关键字:词频    ( 1120个结果
文本处理、词频统计与Simhash生成文档指纹
the 1 , data 2 , mining 3 , and 4 , web 2 , information 2 , system 1 , research 2 , group 1 , dmwis 1 , at 1 , college 1 , of 3 , computer 1 , science ...
分类:其他好文   时间:2020-04-19 14:28:53    阅读次数:83
进阶实验5-3.3 基于词频的文件相似度 (30分)-哈希
解题思路: 1、存储:用一张哈希表存储单词以及对应所在的文件,再用一张文件表,存储每个文件的词汇量以及单词在哈希表中的位置 2、查询:先在文件表中查询对应的文件名,(取文件词汇量较少的文件名)-> 找到对应文件名中的词汇所在位置-> 根据此单词的位置到哈希表中查找单词所在文件列表->从而判断该单词是 ...
分类:其他好文   时间:2020-04-08 20:45:08    阅读次数:117
jieba库的使用和好玩的词云
I.三国演义和水浒传的词频统计: #三国演义的词频统计 import jieba excludes = {"将军","却说","荆州","二人","不可","不能","如此"} txt = open("threekingdoms.txt", "r", encoding='utf-8').read() ...
分类:其他好文   时间:2020-04-08 14:57:04    阅读次数:93
运用jieba库统计词频及制作词云
一、对新时代中国特色社会主义做词频统计 import jieba txt = open("新时代中国特色社会主义.txt","r",encoding="utf-8").read() words = jieba.lcut(txt) counts = {} for word in words: if l ...
分类:其他好文   时间:2020-04-08 11:34:30    阅读次数:103
爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计)
前言 文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者:一棵程序树 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 我们以财经分栏为例,这里我们观察网页源码可以看到 ...
分类:编程语言   时间:2020-04-06 17:22:11    阅读次数:208
运用jieba库进行词频统计
Python第三方库jieba(中文分词) 一、概述 jieba是优秀的中文分词第三方库- 中文文本需要通过分词获得单个的词语- jieba是优秀的中文分词第三方库,需要额外安装- jieba库提供三种分词模式,最简单只需掌握一个函数 二、安装说明 全自动安装:(cmd命令行) pip instal ...
分类:其他好文   时间:2020-04-06 09:53:55    阅读次数:368
西游记 词频统计
1 import jieba 2 txt=open("D://python_common_exercise//west_journey.txt",'r',encoding="utf-8").read() 3 words=jieba.lcut(txt) #jieba库函数 4 count={} #创建 ...
分类:其他好文   时间:2020-04-05 18:29:41    阅读次数:148
小鹤双拼入门指北(1)
背景 由于自己中文输入太慢,于是想寻找解决的办法。 解决过程 经过观察得出自己慢的原因: 1.打字速度没有拖后腿,但是键位不准,导致错误和回退的次数比较多。 2.全拼输入本身的速度限制。汉字本身的原因,同音字词比较多,导致字的页码比较多,最终定位比较依赖输入词频和输入法的智能程度。 针对问题1,可以 ...
分类:其他好文   时间:2020-04-02 17:57:08    阅读次数:175
使用SparkSQL编写wordCount的词频统计
# 使用SparkSQL编写wordCount的词频统计 ## word.txt```hello hello scala sparkjava sql html java hellojack jack tom tom you he he sql``` ## spark 代码:```objec ...
分类:数据库   时间:2020-03-30 21:50:35    阅读次数:213
02 使用Flink的本地模式完成词频统计
前面我们已经安装了flink,与storm一样,flink也有两种模式,一是本地模式,主要用于学习和测试,另一个是集群模式,实际生产中使用这种模式。本节将阐述如何使用本地模式的flink进行词频统计。 1 系统、软件以及前提约束 CentOS 7 64 工作站 作者的机子ip是192.168.100 ...
分类:其他好文   时间:2020-03-30 00:09:57    阅读次数:64
1120条   上一页 1 ... 4 5 6 7 8 ... 112 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!