Python高级应用程序设计任务要求 用Python实现一个面向主题的网络爬虫程序,并完成以下内容:(注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台) 一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 名称:爬取视频网站中的电影排名信息2.主题式网络爬虫爬取的内容与数 ...
分类:
编程语言 时间:
2019-11-30 13:22:53
阅读次数:
90
1、jieba jieba分词库的使用 2、wordcloud wordcloud词云库的使用 wordcloud词云绘图 3、turtle 彩色蟒蛇绘制 七段数码管绘制 ...
分类:
其他好文 时间:
2019-11-23 12:48:01
阅读次数:
60
阅读目录 回到顶部 1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba ...
分类:
编程语言 时间:
2019-11-03 22:05:59
阅读次数:
183
安装:pip install jieba 导包:import jieba 精确模式:试图将句子最精确地切开,适合文本分析(很像人类一样去分词) jieba.cut(字符串) --> 返回生成器 jieba.lcut(字符串) --> 返回列表 全模式:把句子中所有的可以成词的词语都扫描出来,速度非常 ...
分类:
其他好文 时间:
2019-10-29 21:43:28
阅读次数:
112
jieba库基本介绍 jieba库的安装 pip install jieba (cmd命令行) jieba分词的三种模式 精确模式、全模式、搜索引擎模式 精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式基础上,对长词再次切分 爬 ...
分类:
其他好文 时间:
2019-10-28 20:48:11
阅读次数:
80
附加:另一种jieba分词写法: 参考jieba中文分词:https://github.com/fxsjy/jieba ##欢迎讨论 ...
分类:
编程语言 时间:
2019-10-17 01:20:29
阅读次数:
123
1. 统计字符(可以在jieba分词之后使用) 2. 多次覆盖,循环写入文件 比如,循环两次的结果是: 3. 一次性写入文件,中间不会覆盖和多次写入;但是如果重复运行代码,则会覆盖之前的全部内容,一次性重新写入所有新内容 ...
分类:
编程语言 时间:
2019-10-16 23:20:47
阅读次数:
109
1.安装jieba 2.引入jieba cd 到haystack安装目录backends下, 新建文件ChineseAnalyzer.py,键入内容 3.更改haystack的后台文件文件夹下cp并修改whoosh_backend.py, 增加jieba. # 文件名是惯例, 可自行修改修改whoo ...
分类:
其他好文 时间:
2019-09-30 21:34:50
阅读次数:
99
本文主要讨论的是通过爬取天猫的销售数据和评论数据后,对数据进行清洗,并进行分析。流程大致为:1.通过selenium爬取销售数据; 2.通过selenium和re正则表达式爬取评论数据;3.通过pandas对数据进行清洗和分析;4.运用matplotlib和wordcount来进行可视化 1、故事的 ...
分类:
编程语言 时间:
2019-09-10 23:55:18
阅读次数:
212
问题1:jieba中文分词的原理? 问题2:HMM在jieba中的应用? 问题3:HMM在其他行业内有何应用? 首先学一个东西的第一步应该先看官网https://github.com/fxsjy/jieba 官网给出jieba中应用到的算法有: 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能 ...
分类:
其他好文 时间:
2019-08-22 01:13:57
阅读次数:
242