码迷,mamicode.com
首页 > 其他好文 > 详细

Pandas之入门

时间:2018-10-30 00:28:10      阅读:142      评论:0      收藏:0      [点我收藏+]

标签:nump   跳过   直接   pandas   简单   重要   new   结构   数据结构   

pandas入门

由于最近公司要求做数据分析,pandas每天必用,只能先跳过numpy的学习,先学习大Pandas库
Pandas是基于Numpy构建的,让以Numpy为中心的应用变得更加简单

pandas的数据结构介绍

  • Series

    • 由一组数据以及一组数据标签即索引组成
    import pandas as pd
    from pandas import Series,DataFrame
    
    obj = Series([4,7,-5,3])
    # 索引在左边,值在右边,默认从0开始
    obj
    0    4
    1    7
    2   -5
    3    3
    dtype: int64
    
    
    # 制定索引
    obj2 = Series([4,7,-5,3],index = [‘a‘,‘b‘,‘c‘,‘d‘])
    obj2
    a    4
    b    7
    c   -5
    d    3
    dtype: int64
    # 查看索引
    obj2.index
    Index([‘a‘, ‘b‘, ‘c‘, ‘d‘], dtype=‘object‘)
    
    # 查询
    obj2[[‘a‘,‘b‘,‘c‘]]
    a    4
    b    7
    c   -5
    dtype: int64
    
    obj2[obj2>0]
    a    4
    b    7
    d    3
    dtype: int64
    • 还可以直接看成一个关系型字典
    sdata = {‘ke‘:35000,‘text‘:70000,‘orgen‘:16000}
    obj3 = Series(sdata)
    obj3
    
    ke       35000
    text     70000
    orgen    16000
    dtype: int64
    
    keys = [‘ke‘,‘text‘,‘orgen‘,‘xu‘]
    obj4 = Series(sdata, index=keys)
    obj4
    ke       35000.0
    text     70000.0
    orgen    16000.0
    xu           NaN
    dtype: float64
    • 检测缺失值的重要两个函数 isnull和notnull
    obj4[obj4.isnull()]
    xu   NaN
    dtype: float64
    
    obj4[obj4.notnull()]
    ke       35000.0
    text     70000.0
    orgen    16000.0
    dtype: float64
    • Series本身和索引都有一个name属性
    # 可以理解成对象名称
    obj4.name = ‘pop‘
    # 对象的索引的名称
    obj4.index.name = ‘state‘
    obj4
    
    state
    ke       35000.0
    text     70000.0
    orgen    16000.0
    xu           NaN
    Name: pop, dtype: float64
    
    # Series的索引可以就地修改
    obj4.index = [‘new_ke‘,‘new_text‘,‘new_orgen‘,‘new_xu‘]
    new_ke       35000.0
    new_text     70000.0
    new_orgen    16000.0
    new_xu           NaN
    Name: pop, dtype: float64
  • DataFrame
    • DataFrame是一个表格型数据结构,最常用的是直接传入一个由等长列表或者是Numpy数组组成的字典
    data = {‘state‘:[‘oh‘,‘oh‘,‘vad‘,‘vad‘],
            ‘yead‘:[2000,2001,2002,2003],
            ‘pop‘:[1.5,1.7,3.6,2.4]
        }
    
    frame = DataFrame(data)
    # 自动有序排列
        yead    state   pop
    0   2000    oh  1.5
    1   2001    oh  1.7
    2   2002    vad 3.6
    3   2003    vad 2.4
    
    # 如果传入的列在数据中找不到,就产生NaN
    DataFrame(data,columns=[‘yar‘,‘yead‘])
        yar yead
    0   NaN 2000
    1   NaN 2001
    2   NaN 2002
    3   NaN 2003

Pandas之入门

标签:nump   跳过   直接   pandas   简单   重要   new   结构   数据结构   

原文地址:https://www.cnblogs.com/lishi-jie/p/9874102.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!