现在自然语言处理用深度学习做的比较多,我还没试过用传统的监督学习方法做分类器,比如SVM、Xgboost、随机森林,来训练模型。因此,用Kaggle上经典的电影评论情感分析题,来学习如何用传统机器学习方法解决分类问题。 通过这个情感分析的题目,我会整理做特征工程、参数调优和模型融合的方法,这一系列会 ...
分类:
其他好文 时间:
2019-05-19 11:49:23
阅读次数:
224
我感觉学习python有一个阶段就是熟悉它的各种第三方库的使用,这次我们用jieba分词,用wordcloud生成词云,用pyecharts生成柱状图,来看看吧~ 若您有需要,所有文件已上传到我的github(左上角图标直达)~ 从爬虫开始好了,猫眼电影电脑网页版只能看热门影评。其实为了获取更多影评 ...
分类:
其他好文 时间:
2019-04-30 13:51:15
阅读次数:
143
我在网上找到了另外的接口:http://m.maoyan.com/mmdb/comments/movie/248906.json?_v_=yes&offset=0&startTime=2019-02-05%2020:28:22,可以改变offset的值,通过改变startTime的值来获取更 多的评 ...
分类:
其他好文 时间:
2019-04-28 12:55:52
阅读次数:
169
题目描述 某城市开了一家新的电影院,吸引了很多人过来看电影。该电影院特别注意用户体验,专门有个 LED显示板做电影推荐,上面公布着影评和相关电影描述。 作为该电影院的信息部主管,您需要编写一个 SQL查询,找出所有影片描述为非 boring (不无聊) 的并且 id 为奇数 的影片,结果请按等级 r ...
分类:
其他好文 时间:
2019-04-14 12:41:33
阅读次数:
141
Recommender Systems(推荐系统) Problem formulation(问题描述) nu:用户数量 nm:电影数量 r(i, j):用户j给电影评分时为1 y(i, j):用户j给电影i评的分数 Content-‐based recommendations(基于内容的推荐系统) ...
分类:
其他好文 时间:
2019-04-13 10:39:26
阅读次数:
229
源码:https://github.com/keras-team/keras/blob/master/examples/imdb_bidirectional_lstm.py 及keras中文文档 1.imdb数据集 数据集来自 IMDB 的 25,000 条电影评论,以情绪(正面/负面)标记。评论已 ...
分类:
数据库 时间:
2019-04-08 13:14:20
阅读次数:
552
1 # -*- coding:utf-8 -*- 2 ''' 3 抓取豆瓣电影某部电影的评论 4抓取电影 5 网址链接:https://movie.douban.com/subject/26630781/comments 6 为了抓取全部评论需要先进行登录 7 ''' 8 from selenium ...
分类:
编程语言 时间:
2019-04-06 12:41:16
阅读次数:
265
影评文本分类 文本分类(Text classification):https://www.tensorflow.org/tutorials/keras/basic_text_classification主要步骤: 1.加载IMDB数据集 2.探索数据:了解数据格式、将整数转换为字词 3.准备数据 4 ...
分类:
其他好文 时间:
2019-03-27 00:15:13
阅读次数:
284
mongo和传统型数据库相比,最大的不同:传统型数据库:结构化数据,定好了表结构后,每一行的内容,必是符合表结构的,就是说--列的个数,类型都一样.mongo文档型数据库:表下的每篇文档,都可以有自己独特的结构(json对象都可以有自己独特的属性和值)思路:如果有电影,影评,影评的回复,回复的打分在传统型数据库中,至少要4张表,关联度非常复杂.在文档数据库中,通过1篇文档,即可完成.体现出文档型数
分类:
数据库 时间:
2019-03-16 20:49:25
阅读次数:
200
Keras 是一个用 Python 编写的高级神经网络 API,它能够以 TensorFlow, CNTK, 或者 Theano 作为后端运行。Keras 的开发重点是支持快速的实验。能够以最小的时延把你的想法转换为实验结果,是做好研究的关键。 本文以Kaggle上的项目:IMDB影评情感分析为例, ...
分类:
其他好文 时间:
2019-02-25 00:36:20
阅读次数:
183