一、SparkSQL的进化之路 1.0以前: Shark 1.1.x开始: SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+DataFrame+DataSet(测试版本 ...
分类:
数据库 时间:
2018-07-14 00:53:31
阅读次数:
345
1. 解决了pymongo访问MongoDB的问题 2. 解决了查询的数据转成dataframe的问题 3. 解决了dataframe写入到csv的问题 4. 解决了中文乱码问题。 谢谢 ...
分类:
数据库 时间:
2018-07-13 17:46:12
阅读次数:
1302
一、pandas概述 1.pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的。 2.pandas的主要功能 具备对其功能的数据结构DataFrame、Series 集成时间序列功能 提供丰富的数学运算和操作 灵活处理缺失数据 3.python中操作方式: 安装方法:pip ...
分类:
其他好文 时间:
2018-07-12 23:59:34
阅读次数:
407
在TensorFlow中运行程序出现如下 TypeError: unhashable type: 'numpy.ndarray',主要原因可能是数据类型的问题,如下: 可能X_train 是 DataFrame格式的,不能用于迭代,可将其转化成 np.array 格式的,如 X_train = np ...
分类:
其他好文 时间:
2018-07-11 22:48:38
阅读次数:
5973
pandas:数据分析 pandas是一个强大的的python数据分析的工具包 pandas是基于NumPy构建的 pandas的主要功能: 具备对其功能对数据结构DataFrame, Series 集成时间序列功能 提供丰富的数学运算和操作 灵活处理缺失数据 具备对其功能对数据结构DataFram ...
分类:
其他好文 时间:
2018-07-10 01:16:52
阅读次数:
225
由于我要叠加rdd某列的数据,如果加数中出现nan,结果也需要是nan,nan可以做到,但我要处理的数据源中的nan是以null的形式出现的,null不能叠加,而且我也不能删掉含null的行,于是我用了sparksql 的 ISNULL和CASE WHEN方法: Case When 方法: 如果ob ...
分类:
其他好文 时间:
2018-07-09 19:15:05
阅读次数:
484
本篇重点讲解windows系统下 Python3.5中第三方excel操作库-openpyxl; 其实Python第三方库有很多可以操作Excel,如:xlrd,xlwt,xlwings甚至注明的数据分析模块Pandas也提供pandas.read_excel、pandas.DataFrame.to ...
分类:
编程语言 时间:
2018-07-08 13:31:23
阅读次数:
2833
5.结构化流的输出 一旦定义好了streaming DataFrame/Dataset的最终结果,剩下的就是一些计算输出了.为此,必须使用 DataStreamWriter通过 Dataset.writeStream() 返回.此时必须以下一个或多个 输出落地 的详细信息: Data format, ...
分类:
其他好文 时间:
2018-07-08 00:29:28
阅读次数:
210
TuShare返回的是pandas的DataFrame格式,但是执行以下代码时报错:TypeError: Empty 'DataFrame': no numeric data to plot 反复输出df['BoxOffice']确认是有值的,想不通为什么会报“Empty”,百度也没什么结果。 以为 ...
分类:
其他好文 时间:
2018-07-07 20:53:53
阅读次数:
828