import pandas as pdimport numpy as np pandas 有两个主要的数据结构:Series 和 DataFrame;Series 是一个一维数组对象 ,它包含一组索引和一组数据,可以把它理解为一组带索引的数组。DataFrame 是一个表格型的数据结构。它提供有序的 ...
分类:
其他好文 时间:
2018-11-28 20:31:12
阅读次数:
232
#python中的pandas库主要有DataFrame和Series类(面向对象的的语言更愿意叫类) DataFrame也就是#数据框(主要是借鉴R里面的data.frame),Series也就是序列 ,pandas底层是c写的 性能很棒,有大神#做过测试 处理亿级别的数据没问题,起性能可以跟同等 ...
分类:
编程语言 时间:
2018-11-28 11:58:55
阅读次数:
197
1、Python数据结构 2、Numpy数组 3、Scipy矩阵 4、Matplotlib可视化 5、Pandas数据分析和探索 Pandas基本数据结构是Series和DataFrame 6、Keras神经网络 构建一个MLP(多层感知器), 无法运行,需要适配相应的数据 ...
分类:
编程语言 时间:
2018-11-27 14:44:45
阅读次数:
228
import numpy as np import pandas as pd # 序列的创建,总共三种方式 #(1)一维数组创建 arr = np.arange(10) print(arr) print(type(arr)) s1 = pd.Series(arr) print(s1) print(t... ...
分类:
其他好文 时间:
2018-11-25 17:45:29
阅读次数:
270
反射方式构建元数据: 通过反射来获取RDD中的Schema信息。这种方式适合于列名(元数据)已知的情况下 步骤: 1.SparkConf配置环境 2.SparkContext初始化上下文 3.SQLContext初始化SparkSQL上下文 4.创建一个普通的RDD(sc.textFile) 5.使 ...
分类:
其他好文 时间:
2018-11-24 14:21:32
阅读次数:
210
Spark Streaming编程指南 概观 一个快速的例子 基本概念 链接 初始化StreamingContext 离散流(DStreams) 输入DStreams和Receivers DStreams的转换 DStreams的输出操作 DataFrame和SQL操作 MLlib运营 缓存/持久性 ...
#显示所有列 pd.set_option('display.max_columns', None) #显示所有行 pd.set_option('display.max_rows', None) #设置value的显示长度为100,默认为50 pd.set_option('max_colwidth',... ...
分类:
其他好文 时间:
2018-11-23 16:11:10
阅读次数:
438
pandas主要的两个数据结构是:series(相当于一行或一列数据结构和DataFrame(相当于多行多列的一个表格数据机构)。 原文:https://www.cnblogs.com/gangandimami/p/8983323.html 1.重新索引:reindex和ix 上一篇中介绍过数据读取 ...
分类:
其他好文 时间:
2018-11-22 21:02:42
阅读次数:
282
pd.concat([df1, df2], axis=1) df.sort_index(inplace=True)https://stackoverflow.com/questions/40468069/merge-two-dataframes-by-indexhttps://stackoverfl ...
分类:
编程语言 时间:
2018-11-22 14:39:27
阅读次数:
264
Python的pandas包对表格化的数据处理能力很强,而SQL数据库的数据就是以表格的形式储存,因此经常将sql数据库里的数据直接读取为dataframe,分析操作以后再将dataframe存到sql数据库中。而pandas中的read_sql和to_sql函数就可以很方便得从sql数据库中读写数 ...
分类:
数据库 时间:
2018-11-21 15:55:47
阅读次数:
212