码迷,mamicode.com
首页 > 编程语言 > 详细

Python电影数据分析

时间:2018-04-19 18:48:45      阅读:273      评论:0      收藏:0      [点我收藏+]

标签:item   numpy   head   timestamp   user   and   lan   分数   tin   

数据说明:MovieLens数据集,它包含来自于943个用户以及精选的1682部电影的100K个电影打分。每个用户至少为20部电影打分,数据类型user id | item id | rating | timestamp. 

地址:https://grouplens.org/datasets/movielens/

1、引入pandas,numpy包

技术分享图片

2、读取数据:首先,文件如果不在默认路径下,需要更改路径,使用下面两行命令,另外要注意正反斜杠的应用。

os.getcwd()

os.chdir("新的路径")

技术分享图片

3、由于数据包含了打分数据,用户数据,但在两个文件里,因此需要合并。首先,使用header=[‘l列名1‘,‘列名2‘.....]格式给两个文件添加列名

技术分享图片

然后数据合并

技术分享图片

结果:

技术分享图片

将文件转换成字典类型,并按照列名读取两列

技术分享图片

技术分享图片

技术分享图片

 

Python电影数据分析

标签:item   numpy   head   timestamp   user   and   lan   分数   tin   

原文地址:https://www.cnblogs.com/luban/p/8885121.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!