码迷,mamicode.com
首页 >  
搜索关键字:文本分析    ( 342个结果
linux中awk的使用 初稿
参考文献:https://www.cnblogs.com/jiqianqian/p/7944013.html awk是一个强大的文本分析工具。相较于sed常常一整行处理,awk则比较倾向于一行当中分成数个“字段”处理,简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行 ...
分类:系统相关   时间:2018-05-07 13:37:47    阅读次数:191
linux之 awk
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk, ...
分类:系统相关   时间:2018-05-05 23:02:01    阅读次数:230
pynlpir + pandas 文本分析
导入包: 读入初始文本、停用词文件,创建保存初始分词数据的Dataframe 一些参数: 由于文件里文本内容比较多,直接读取、分词、过滤会比较慢,采用多线程按行读取并处理 单行处理函数: 使用多线程读取: 打印最初分词后的数据: 创建词汇-频数库: 创建词性-频数库: 统计几种重要词性的词汇分布: ...
分类:其他好文   时间:2018-04-30 15:42:14    阅读次数:697
爬虫大作业
1.选一个自己感兴趣的主题(所有人不能雷同)。 答:爬取李冰冰微博主页信息 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 答:文本获取到的字符信息并不是我们想要的效果,因此,为了达到我们想要的效果,我就将所 ...
分类:其他好文   时间:2018-04-30 11:40:50    阅读次数:319
爬虫大作业之广商足球快讯(爬取足球新闻)
1.选一个自己感兴趣的主题(所有人不能雷同)。 主题:爬取足球新闻相关信息 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 txt 词云: 4.对文本分析结果进行解释说明。 文本内容通过对新闻网站的某个球队的新闻爬取,分别有标题、来源、内容等 ...
分类:其他好文   时间:2018-04-28 10:50:53    阅读次数:96
Linux中awk用法
1、awk简介:awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。2、awk格式:awk是由模式,动作,或者模式和动作的组合组成。模式pattern指的是匹配条件,动作action指的是由在大括号的一条或多条语句组成,语句之间用逗号隔开。
分类:系统相关   时间:2018-04-27 12:09:18    阅读次数:249
爬虫大作业
1.选一个自己感兴趣的主题(所有人不能雷同)。 我选择了我们学校的新闻网来爬取数据,主要是通过获取文本然后结巴来分析 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 打开广州商学院的网址进入到校园的新闻网。然后通过对每一页的来获取信息。 3.对爬了的数据进行文本分析,生成词云。 首先 ...
分类:其他好文   时间:2018-04-27 02:40:40    阅读次数:267
python-爬取中药信息
1.选一个自己感兴趣的主题或网站。(所有同学不能雷同) 源地址:http://www.18ladys.com/ 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 图3-1 爬虫小程序的词云 4.对文本分析结果进行解释说明。 因为爬取的是各个中药 ...
分类:编程语言   时间:2018-04-24 20:22:36    阅读次数:635
爬虫大作业
用python 编写爬虫程序,从网络上爬取相关主题的数据 对爬了的数据进行文本分析,生成词云 ...
分类:其他好文   时间:2018-04-24 14:47:27    阅读次数:156
爬虫大作业-爬区a9vg电玩部落ps4专区
1.选一个自己感兴趣的主题或网站。(所有同学不能雷同) 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 通过使用第三方的jieba库进行中文分词,其中有过多新闻正文内容包含视频链接,所以通过设计了停用词,去掉 ...
分类:其他好文   时间:2018-04-23 00:09:24    阅读次数:228
342条   上一页 1 ... 8 9 10 11 12 ... 35 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!