标签:
3、数据转换
介绍完数据的重排之后,下面介绍数据的过滤、清理、以及其他转换工作。
#-*- encoding: utf-8 -*- import numpy as np import pandas as pd import matplotlib.pyplot as plt from pandas import Series,DataFrame #DataFrame去重 data = DataFrame({‘k1‘:[‘one‘]*3 + [‘two‘] * 4, ‘k2‘:[1,1,2,3,3,4,4,]}) #print data print data.duplicated() #返回一个布尔型Series,重复的为True,不重复的为False #得到去重之后的DataFrame,应该意识到这是非常常用的 print data.drop_duplicates().reset_index(drop = True) #可以选定需要去重的列 print data.drop_duplicates([‘k1‘]) #默认保留第一次出现的行 print data.drop_duplicates([‘k1‘],take_last = True) #设定保留最后一个出现的行
《利用python进行数据分析》读书笔记--第七章 数据规整化:清理、转换、合并、重塑(二)
标签:
原文地址:http://www.cnblogs.com/batteryhp/p/5040342.html