码迷,mamicode.com
首页 > 编程语言 > 详细

使用python对美团的评论进行贝叶斯模型分类

时间:2019-10-06 18:36:59      阅读:242      评论:0      收藏:0      [点我收藏+]

标签:apply   git   取数   爬取   blog   src   pytho   height   tar   

环境配置需要安装的包
pip install pandas

pip install jieba

pip install sklearn

一、数据获取
利用python抓取美团的数据集,获取非空的数据,抓取的字段包括店名、评论、评论的打分

二、数据预处理

导入sklearn的包

技术图片

 

系统默认的包 

技术图片

 

 

1.数据洗涤
将爬取的数据进行数据洗涤,去除符号以及标点等,将结果按id和对应的评论重新组合在一起
形成一条数据一个评分
技术图片

 

2.读取数据并做好标签

技术图片

 

3.读取内容建立训练的字段
apply中的是分词函数,将每个句子化成词向量进行训练

tts分词的模型,test_size是测试集的大小

技术图片

 

4.构建模型

其中stop_words是停用词

技术图片

 

 

三、模型建立

1.初始化使用的分类模型
初始化贝叶斯模型

技术图片

 

 

2.训练模型建立管道保存
技术图片

 

 

四、预测

1.模型预测

算出准确率
技术图片

 

 

五、注意

在3.0.x的python版本中sklearn的导入模型有变化,参考我给出的模型包。参考链接很详细,但是导入模型有点旧,有些不能使用训练集的准确率那个包就是如此

 

六、参考
参考blog:http://blog.sciencenet.cn/blog-377709-1103593.html

最后根据店铺的评论数和评论关键字生成词云

词云:https://www.cnblogs.com/future-dream/p/11624463.html

github:https://github.com/pzq7025/emotion

使用python对美团的评论进行贝叶斯模型分类

标签:apply   git   取数   爬取   blog   src   pytho   height   tar   

原文地址:https://www.cnblogs.com/future-dream/p/11626274.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!