码迷,mamicode.com
首页 > 编程语言 > 详细

python数据探索

时间:2018-04-19 15:02:38      阅读:171      评论:0      收藏:0      [点我收藏+]

标签:多少   最小值   特征   desc   相关   技术分享   news   复数   var   

 

数据质量分析 
脏数据包括:缺失值;异常值;不一致的值;重复数据及含有特殊符号的数据; 
1.缺失值处理 
统计缺失率,缺失数 
2.异常值处理 
(1)简单统计量分析 
(2)3Q原则 
正态分布情况下,小概率事件为异常值 
不服从正太分布的,可以用原离平均值多少倍标准差来分析 
(3)箱线图分析 
使用describe()描述

 

主要数据探索函数 
1.Pandas常用函数总结

 

导入数据

技术分享图片

 

导出数据

技术分享图片

查看、检查数据

技术分享图片

数据选取

技术分享图片

数据清理

技术分享图片

数据处理:Filter 、Sort 和 GroupBy

技术分享图片

 
查看具体有哪几个值
ids = [1,4,3,3,4,2,3,4,5,6,1]
news_ids = list(set(ids))
news_ids.sort(ids.index)

 

数据合并、数据统计 

技术分享图片

2.拓展统计特征函数

累计统计特征函数

  • cumsum :依次给出前1-n个数的和
  • cumprod: 依次给出前1-n个数的积
  • cummax: 依次给出前1-n个数的最大值
  • cummin: 依次给出前1-n个数的最小值
  • rolling_sum(): 总和(按列)
  • rolling_mean(): 算数平均值
  • rolling_var(): 方差
  • rolling_std(): 标准差
  • rolling_corr(): 相关系数矩阵
  • rolling_cov(): 协方差矩阵
  • rolling_skew():偏度(三阶矩)
  • rolling_kurt(): 峰度(四阶矩)

 

python数据探索

标签:多少   最小值   特征   desc   相关   技术分享   news   复数   var   

原文地址:https://www.cnblogs.com/yaowentao/p/8882386.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!