搜索关键字：停用，搜索到522个结果！码迷,mamicode.com！

电商产品评论数据LDA主题模型、文本挖掘

一、分析方法与过程本次针对京东商城上的“美的”热水器的文本评论数据进行建模分析。本文进行基本的预处理、分词等操作后建立LDA主题模型，实现对文本评论数据的倾向性判断及信息挖掘分析。（1）利用爬虫进行数据采集（由于最近较忙，爬虫代码等空了再附上，暂且先用书中提供的数据进行建模），原始文本评论数据为 ...

分类：其他好文时间：2021-06-28 21:08:08 阅读次数：0

04 RDD编程练习

一、filter,map,flatmap练习： 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词二、groupByKey练习 6.练习一的生成单词键值对 7.对单词进行分组 8.查看分组结果学生科目成绩 ...

分类：其他好文时间：2021-06-07 20:04:10 阅读次数：0

CentOS7使用iptables

1、先停用CentOS7自带的防火墙 //关闭防火墙 systemctl stop firewalld.service //永久关闭防火墙 systemctl disable firewalld.service 2、安装iptables yum install -y iptables-service ...

分类：其他好文时间：2021-06-02 20:03:37 阅读次数：0

好不容易写完的词云

from PIL import Image import wordcloud import numpy as np import matplotlib.pyplot as plt import jieba #文本处理 def f(): with open('停用词.txt','r',encoding ...

分类：其他好文时间：2021-04-28 12:10:50 阅读次数：0

李尔王皮卡丘

from PIL import Image import wordcloud import numpy as np import matplotlib.pyplot as plt import jieba #文本处理 def f(): with open('停用词.txt','r',encoding ...

分类：其他好文时间：2021-04-28 12:10:30 阅读次数：0

05 RDD编程

一、词频统计：读文本文件生成RDD lines 将一行一行的文本分割成单词 words flatmap() 全部转换为小写 lower() 去掉长度小于3的单词 filter() 去掉停用词转换成键值对 map() 统计词频 reduceByKey() 按字母顺序排序按词频排序 10、结果文件 ...

分类：其他好文时间：2021-04-23 12:06:34 阅读次数：0

05RDD

读文本文件生成RDD lines 将一行一行的文本分割成单词 words flatmap() 全部转换为小写 lower() 去掉长度小于3的单词 filter() 去掉停用词转换成键值对 map() 统计词频 reduceByKey() 按字母顺序排序 sortBy(f) 按词频排序 sortB ...

分类：其他好文时间：2021-04-21 12:03:05 阅读次数：0

05 RDD编程2

一、词频统计： 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 8.按字母顺序 ...

分类：其他好文时间：2021-04-20 15:35:56 阅读次数：0

05 RDD编程

一、词频统计： 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 8.按字母顺序 ...

分类：其他好文时间：2021-04-20 15:35:16 阅读次数：0

RDD编程

1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 8.按字母顺序排序 sortB ...

分类：其他好文时间：2021-04-20 15:17:39 阅读次数：0