对dataframe绘图并保存: 可以制定列,对该列各取值作统计: ...
分类:
其他好文 时间:
2017-08-04 19:28:10
阅读次数:
165
1,如果写sql语句能实现的操作,最好就不要用dataframe了;spark会自己做优化,性能和稳定性都会比较高 2,中间过程存成parquet文件而不是HIVE表 3,能用reduceByKey就不要用groupByKey 4,在数据量很大或者存在倾斜的时候,可以考虑先repartition后在 ...
分类:
其他好文 时间:
2017-08-03 00:53:49
阅读次数:
221
目录 · 概述 · 原理 · 组成 · 执行流程 · 性能 · API · 应用程序模板 · 通用读写方法 · RDD转为DataFrame · Parquet文件数据源 · JSON文件数据源 · Hive数据源 · 数据库JDBC数据源 · DataFrame Operation · 性能调优 ...
分类:
数据库 时间:
2017-07-31 09:58:34
阅读次数:
395
重新索引 (1)reindex重新索引,在已有的索引基础上新建索引,fill_value可以指定新建索引默认值 (2)#新建索引,如果新建的索引值为空自动填充之前的值 对于DataFrame重新索引同样适用 注意:重新索引的结果类似于一个拷贝动作,这里对df的第一行第一列数据进行重新赋值,但df2并 ...
分类:
其他好文 时间:
2017-07-30 17:11:10
阅读次数:
138
有三种索引:ix,iloc,loc; 使用方法都是 __.ix[row, columns] 详细的见 pandas 文档。 需要注意的差别是: 1,ix方法 混合索引和位置下标(必须是整数),先考虑是否是在标签索引中,然后考虑是位置下标。如果是整数作为index,ix就按照索引标签选取。 loc方法 ...
分类:
其他好文 时间:
2017-07-30 13:47:37
阅读次数:
193
爬取前的准备: BeautifulSoup的导入:pip install BeautifulSoup4 requests的导入:pip install requests 下载jupyter notebook:pip install jupyter notebook 下载python,配置环境(可使用 ...
分类:
编程语言 时间:
2017-07-29 23:14:38
阅读次数:
566
groupby分组函数: 返回值:返回重构格式的DataFrame,特别注意,groupby里面的字段内的数据重构后都会变成索引 groupby(),一般和sun()一起使用,如下例: from pandas import Series,DataFrame a=[['Li','男','PE',98. ...
分类:
其他好文 时间:
2017-07-28 12:14:52
阅读次数:
240
将pandas的DataFrame数据写入MySQL数据库 + sqlalchemy [python] view plain copy print? import pandas as pd from sqlalchemy import create_engine ##将数据写入mysql的数据库,但 ...
分类:
数据库 时间:
2017-07-25 17:17:30
阅读次数:
433
引入所需要的包: 一、创建对象 通过传递一个list对象来创建一个Series 通过传递一个numpy array,时间索引以及列标签来创建一个DataFrame 通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame 二、 查看数据 1、查看frame中头部和尾部的行 ...
分类:
其他好文 时间:
2017-07-21 00:03:29
阅读次数:
225
from pandas import Series,DataFrame import pandas as pd import numpy as np from pandas import Series,DataFrame import pandas as pd import numpy as np ...
分类:
编程语言 时间:
2017-07-19 16:18:30
阅读次数:
191