1.选取一个自己感兴趣的主题,我选取了搜狐新闻 登录网站:http://news.sohu.com/ 2.在浏览器中按F12进入查看器 3.网络上爬取相关的数据,并输出结果 4.进行文本分析,生成词云 from os import path from scipy.misc import imread ...
分类:
其他好文 时间:
2017-11-01 15:40:27
阅读次数:
155
选一个自己感兴趣的主题 首先选取一个网站,我选取手游网站进行爬虫操作,网站网址为http://xin.ptbus.com/indiegame/news/ 网络上爬取相关的数据 爬取网站的数据如下图。 进行文本分析,生成词云 将爬取到的数据直接制作成词云。 效果图如下,毕竟是一个手游资讯网站,游戏的字 ...
分类:
其他好文 时间:
2017-10-31 21:33:44
阅读次数:
124
1.选一个自己感兴趣的主题。 www.freebuf.com FreeBuf黑客与极客,国内关注度最高的全球互联网安全媒体平台,同时也是爱好者们交流与分享安全技术的最佳社区。 2.网络上爬取相关的数据 爬取数据如下 3.进行文本分析,生成词云 截图如下 ...
分类:
其他好文 时间:
2017-10-31 20:08:17
阅读次数:
170
1.选一个自己感兴趣的主题。 我选择的主题是小说网站的爬取,所选文本是青云直上小说,程序也可用于爬取网站其他小说 2.网络上爬取相关的数据。 结果为: 下载到txt文档中,完成小说全本爬取 3.进行文本分析,生成词云。 4.对文本分析结果解释说明。 此显示的是文中最频繁出现的词汇,体现了文章的大意, ...
分类:
其他好文 时间:
2017-10-31 14:20:10
阅读次数:
449
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk, ...
分类:
其他好文 时间:
2017-10-29 18:41:01
阅读次数:
151
1.选一个自己感兴趣的主题。 ‘’数据观”官方网站数据爬取,网页网址为‘http://www.cbdio.com/node_2568.htm’ 2.网络上爬取相关的数据。 3.进行文本分析,生成词云。 4.对文本分析结果解释说明。 通过以上数据显示,该中国大数据官网主要的话题是数据以及交易 和政府、 ...
分类:
Web程序 时间:
2017-10-29 18:35:13
阅读次数:
176
场景: 需要批量kill tail 进程。 解决方法: ps -ef | grep IC.IndexServer.log | grep -v grep | awk -F' ' '{print $2}' | xargs kill -9 ps -ef |grep XXX ps 是查看进程命令,-e 显示 ...
分类:
系统相关 时间:
2017-10-19 19:59:46
阅读次数:
350
习题1:选一个自己感兴趣的主题,做类似的操作,为“爬取网络数据并进行文本分析”做准备。 习题2:用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源 ...
分类:
其他好文 时间:
2017-10-18 10:06:31
阅读次数:
154
Lucene简介 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员 ...
分类:
Web程序 时间:
2017-10-12 23:02:23
阅读次数:
264
简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk ...
分类:
系统相关 时间:
2017-10-12 16:58:39
阅读次数:
184