1. 算术运算 add(other) 比如进行数学运算加上一个具体数字 data["open"].add(10) # open列加10 # data["open"] + 10 # 一般不这么写 sub(other) 用法同add 2. 逻辑运算 2.1. 逻辑运算符号 逻辑运算类型:>, >=, < ...
分类:
其他好文 时间:
2021-05-04 16:04:10
阅读次数:
0
Pandas数据处理: 导?数据 导出数据 查看数据 数据选取 数据处理 数据分组和排序 数据合并 # 在使用之前,需要导入pandas库 import pandas as pd 导?数据: pd.DataFrame() # 自己创建数据框,用于练习 pd.read_csv(filename) # ...
分类:
其他好文 时间:
2021-04-28 12:19:39
阅读次数:
0
import pandas as pd import os import re path = "./files/" files = os.listdir(path) # 用于存放Excel,里面的每个元素类型为:pandas.core.frame.DataFrame list_excel = [] ...
分类:
编程语言 时间:
2021-04-27 14:43:38
阅读次数:
0
什么是分组聚合? 如图: groupby:(by=None,as_index=True) by:根据什么进行分组,用于确定groupby的组 as_index:对于聚合输出,返回以组便签为索引的对象,仅对DataFrame df1 = pd.DataFrame({'fruit':['apple',' ...
分类:
编程语言 时间:
2021-04-10 13:05:19
阅读次数:
0
为什么不用:pd.read_excel ? 因为 pd 使用 openpyxl 读取excel文件,有时候xlsx文件是由ApachIO产生的读取进去会出错,换个方式,用xlwings(基于pywin32?)。 传说会更快吗,没有测试速度,可以自行测试。 代码: import xlwings as ...
Python的第三方模块Tushare是一个免费且专业的财经数据接口,它能获取指定股票的历史数据,并生成DataFrame类型的数据表,便于我们使用pandas模块对数据进行处理和分析。 ...
分类:
编程语言 时间:
2021-02-15 12:36:54
阅读次数:
0
# 先定义dataframe各列的数据类型 from pyspark.sql.types import *schema = StructType([ StructField("a", NullType(), True), StructField("b", AtomicType(), True), S ...
分类:
其他好文 时间:
2021-01-18 11:29:36
阅读次数:
0
##SparkSQL 是什么 ##SparkSQL 初体验 ##Catalyst 优化器 ##Dataset 的特点 ##DataFrame 的作用和常见操作 ##Dataset 和 DataFrame 的异同 ...
分类:
数据库 时间:
2021-01-18 11:03:21
阅读次数:
0
前言 pandas中包含的数据结构共有三种: 1、Series 2、DataFrame 3、Time-series 其中Series和DataFrame是两种常见的数据结构,Time-series为时间序列,这里暂且不去详细讲解。 一、Series Series是一维数组,与Numpy中的一维arr ...
分类:
其他好文 时间:
2021-01-13 11:03:49
阅读次数:
0
引言 Apache Spark 2.2 以及以上版本提供的三种 API - RDD、DataFrame 和 Dataset,它们都可以实现很多相同的数据处理,它们之间的性能差异如何,在什么情况下该选用哪一种呢? RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说, ...
分类:
数据库 时间:
2021-01-08 10:40:55
阅读次数:
0