标签:movies 时间戳 div span tin cup 职业 user 系统用户
用户文件users.dat的格式描述如下:
1. userid::gender::age::occupation::zip-code
2. 用户id、性别、年龄、职业、邮政编码
评级文件ratings.dat的格式描述如下:
1. userid::movieid::rating::timestamp
2. 用户id、电影id、评分数据、时间戳
电影文件movies.dat的格式描述如下:
1. movieid::title::genres
2. 电影id、电影名、电影类型
1、首先使用RDD方式读取数据
1、val usersRDD = sc.textfile(dataPath+"users.dat") 2、val moviesRDD = sc.textfile(dataPath+"movies.dat") 3、val occupationsRDD = sc.textfile(dataPath+"occupations.dat") 4、val ratingsRDD = sc.textfile(dataPath+"ratings.dat")
spark之通过sparksql中的SQL语句实现电影点评系统用户行为分析
标签:movies 时间戳 div span tin cup 职业 user 系统用户
原文地址:https://www.cnblogs.com/xiao02fang/p/13205663.html