一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop,启动hive 3.创建数据库,创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果 二、hive用HDFS上的文件进行词频统计1.准备电子书或其它大的文本文 ...
分类:
其他好文 时间:
2020-12-10 11:24:10
阅读次数:
6
一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop,启动hive 3.创建数据库,创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果 二、hive用HDFS上的文件进行词频统计 1.准备电子书或其它大的文本 ...
分类:
其他好文 时间:
2020-12-10 10:59:18
阅读次数:
4
一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop,启动hive 3.创建数据库,创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果 二、hive用HDFS上的文件进行词频统计 1.准备电子书或其它大的文本 ...
分类:
其他好文 时间:
2020-12-10 10:55:10
阅读次数:
3
一、hive用本地文件进行词频统计 1.准备本地txt文件 mkdir wc cd wc echo "hadoop hbase" > f1.txt echo "hadoop hive" > f2.txt 2.启动hadoop,启动hive start-all.sh hive 3.创建数据库,创建文本 ...
分类:
其他好文 时间:
2020-12-09 12:15:14
阅读次数:
5
1.词频统计 a.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 b.编写map与reduce函数 c.本地测试map和reduce d.将文本数据上传到HDFS上 e.用hadoop streaming提交任务 f.查看运行结果 g.计算结果取回本地 ...
分类:
其他好文 时间:
2020-11-07 16:36:45
阅读次数:
33
本节目录 常用函数一:词频统计 常用函数二:word2vec 常用函数三:doc2vec 常用函数四:LDA主题分析 常用函数一:词频统计 # -*- coding: utf-8 -*- """ Datetime: 2020/06/25 Author: Zhang Yafei Description ...
分类:
编程语言 时间:
2020-07-05 22:59:55
阅读次数:
75
本节目录 常用函数一:获取指定文件夹内所有文件 常用函数二:文本分词 常用函数三:词频统计 常用函数四:数据去重 写在前面 写代码也有很长时间了,总觉得应该做点什么有价值的事情,写代码初始阶段觉得做更多的项目,积累更多的经验是自己应该做的事情,这样可以使自己短时间内技术水平获得较大的提升。随着代码量 ...
分类:
编程语言 时间:
2020-07-04 01:44:15
阅读次数:
69
1.jieba分词与词性标注 思路: (1)利用pandas读取csv文件中的酒店客户评论,并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果 (2)利用jieba分词工具的posseg包,同时实现分词与词性标注 (3)利用停用词表对分词结果进行过滤 (4)将分词结果以20000条为单 ...
分类:
编程语言 时间:
2020-06-27 20:32:04
阅读次数:
125
一、案例引入 这里先引入一个基本的案例来演示流的创建:获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactI ...
分类:
其他好文 时间:
2020-06-27 00:14:44
阅读次数:
62
需求:一篇文章,出现了哪些词?哪些词出现得最多? 英文文本词频统计 英文文本:Hamlet 分析词频 统计英文词频分为两步: 文本去噪及归一化 使用字典表达词频 代码: #CalHamletV1.py def getText(): txt = open("hamlet.txt", "r").read ...
分类:
编程语言 时间:
2020-06-22 13:22:11
阅读次数:
66