一、pandas简介 pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的。 1、pandas的主要功能 (1)具备对其功能的数据结构DataFrame、Series (2)集成时间序列功能 (3)提供丰富的数学运算和操作 (4)灵活处理缺失数据 2、安装和引用 二、Seri ...
分类:
其他好文 时间:
2019-02-08 15:54:56
阅读次数:
151
1、pandas dataframe to_sql() 2、SqlAlchemy 操作 mysql ...
分类:
数据库 时间:
2019-02-01 15:47:54
阅读次数:
205
上节我们简单介绍了Dataframe的定义,这节我们具体来看一下Dataframe的操作 首先,数据框的创建函数为 data.frame( ),参考R语言的帮助文档,我们来了解一下data.frame( )的具体用法: 当然,后面还有很多参数的具体用法,在此不做一一赘述,主要用到的就是前两个。首先, ...
分类:
编程语言 时间:
2019-01-31 13:30:27
阅读次数:
200
Pandas可根据列名称选取,还可以根据列所在的position(数字,在第几行第几列,注意pandas行列的position是从0开始)选取。相关函数如下: 1)loc,基于列label,可选取特定行(根据行index); 2)iloc,基于行/列的position; 3)at,根据指定行inde ...
分类:
其他好文 时间:
2019-01-30 12:49:57
阅读次数:
157
代码很简单但是实现的内容可不简单,第一行导入pandas包,第二行的read_html核心功能实现是调用requests然后解析table标签里的每个td的数据最后生成一个list对象里面是dataframe对象。所以通过小标0获取它的第一个dataframe数据,既然是dateframe我们就可以 ...
分类:
其他好文 时间:
2019-01-29 22:05:35
阅读次数:
182
基本格式:dataframe[列名] 1.取多列 列名要用中括号括起来,所以下述命令 dataframe[['P4_profit_rate','P3PS','P3NS']] 没问题,返回pandas.core.frame.DataFrame类型的值 dataframe['P4_profit_rate ...
分类:
其他好文 时间:
2019-01-29 11:57:00
阅读次数:
217
通过对特征做一个kmeans聚类,将聚类的结果做为文本的标签值,可以使得样本的特征更多 我们从sklearn.cluster中导入Kmeans建立模型进行聚类 代码: 第一步:使用Dataframe格式化数据和使用数据格式化数据 第二步:对字符串进行分词和去除停用词,并使用' '.join完成连接 ...
分类:
其他好文 时间:
2019-01-27 00:20:37
阅读次数:
362
Pandas 提供了concat()函数可以轻松的将Series、DataFrame对象进行合并在一起。 pandas.concat(obj , axis=0 , join="inner" , join_axes=None, ignore_index=Fales) ...
分类:
其他好文 时间:
2019-01-26 22:40:51
阅读次数:
211
代码如下: dataFrame.createOrReplaceTempView("view_page_utm")val sql = s""" |insert overwrite table data_lake_v1.urchin_tracking_module PARTITION(cd='$date ...
分类:
其他好文 时间:
2019-01-26 21:38:53
阅读次数:
222
Pandas提供了一个merge()函数,作为DataFrame对象之间所有标准数据库连接操作的入口pandas.merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=Flase,right_index= ...
分类:
其他好文 时间:
2019-01-26 19:34:07
阅读次数:
188