标签:多少 最小值 特征 desc 相关 技术分享 news 复数 var
数据质量分析
脏数据包括:缺失值;异常值;不一致的值;重复数据及含有特殊符号的数据;
1.缺失值处理
统计缺失率,缺失数
2.异常值处理
(1)简单统计量分析
(2)3Q原则
正态分布情况下,小概率事件为异常值
不服从正太分布的,可以用原离平均值多少倍标准差来分析
(3)箱线图分析
使用describe()描述
主要数据探索函数
1.Pandas常用函数总结
导入数据
导出数据
查看、检查数据
数据选取
数据清理
数据处理:Filter 、Sort 和 GroupBy
ids
=
[
1
,
4
,
3
,
3
,
4
,
2
,
3
,
4
,
5
,
6
,
1
]
news_ids
=
list
(
set
(ids))
news_ids.sort(ids.index)
数据合并、数据统计
2.拓展统计特征函数
累计统计特征函数
标签:多少 最小值 特征 desc 相关 技术分享 news 复数 var
原文地址:https://www.cnblogs.com/yaowentao/p/8882386.html