标签:nts 其他 浮点型 install code tor mic 没有 均值
1.分析目的:通过google play store的app数据分析进行业务方向指导
2.数据
导入框架
导入数据
这次只分析‘App‘ ,‘Category‘ ,‘Rating‘ ,‘Reviews‘ ,‘Size‘ ,‘Installs‘ ,‘Type‘
简单浏览下数据
查看行列数量
查看各个列的非空数据量
有很多缺失值,需要清洗
3.数据清洗
App处理
查看有没有重复值
有重复值,先不着急删除重复值,为了不把其他列的异常值留下,先处理数值异常的列
Category处理
有一条异常值
删除
Rating处理
用平均值填充
有一条值是19的异常记录,和Category的异常是同一条记录
Reviews清洗
用value_counts看数据分布挺广,看起来都是数据
Size清洗
转换成浮点型
将Size为0的填充为平均数
Installs清洗
分布比较少,直接替换
转换
Type处理
df.info() 查看到有na值,这里需要dropna参数
删除这条数据
数据清洗完毕,开始分析数据
4.数据处理和分析
分Category的数据
分类的个数
每个分类的App数量,排序,可以得出哪些分类的app最受开发者欢迎
分类的安装量排序:娱乐社交类最被用户需要
分类的评论数据:社交游戏评论多
分类的打分数据,和其他数据不太一致,需要进一步分析
分Type数据
免费占比大,付费占比小,免费仍然是主流
Category和Type一起分析
评论安装比
相关性:评论数和安装数强相关,其他的连0.1都不到,可以认为是不相关的(0.5以上可以认为是相关的,0.3以上可以认为是弱相关)
标签:nts 其他 浮点型 install code tor mic 没有 均值
原文地址:https://www.cnblogs.com/daisyxxx/p/12682827.html