标签:之一 可视化 密度 数据类型 csv 特殊 mysql 类型 特殊字符
三大对象
1.DataFrame(index, columns ,values)
1)先从文件(excel,csv,mysql)中读取,或者自己制造一个DataFrame对象
2)查看数据
查看数据的形状(几行几列)
查看每一列的数据类型,数据中是否有空值(行、列),查看每一列和标签的关系(离散-柱状图,连续-密度图或者子状图),两列之间的相关度,查看整个的数据分布(最小,最大,均值,标准差等)目的之一是找出异常值。
3)清洗数据
删除
列(如序号列)、行、空值的列(如:一列中绝大多少是空值)
替换
空值(一列中极少数空值,替换方法许多,如均值(连续型如年龄),众数(离散型,如性别),线性差值等),去掉空格/特殊字符,数据类型转换,列名,索引名
4)整理
排序:列的值,索引
修改结构:列变成索引
分组:索引,列
注意:分组要做数据统计 (透视表-pivot-table、 交叉表)
应用函数
列
5)数据合并
多个DateFrame 按照不同的轴合并
6)数据统计
count,sum,max,min mean
7)可视化
2.Series
3.Panel
标签:之一 可视化 密度 数据类型 csv 特殊 mysql 类型 特殊字符
原文地址:https://www.cnblogs.com/evan0925/p/11193178.html