1.spark SQL简介 官网:http://spark.apache.org/ Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程对象,叫DataFrame,并且作为分布式SQL查询引擎的作用 2.为什么要学习spark SQL 2.1 我们已经学习了Hive,它是将H ...
分类:
数据库 时间:
2019-06-26 13:21:25
阅读次数:
133
https://stackoverflow.com/questions/38741952/how-to-convert-data-of-type-panda-to-panda-dataframe ...
分类:
其他好文 时间:
2019-06-25 15:22:24
阅读次数:
104
一 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 Hive是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe ...
分类:
数据库 时间:
2019-06-22 19:45:45
阅读次数:
144
今天朋友问了我个需求,就是如何将多个分析后的结果,也就是多个DataFrame,写入同一个excel工作簿中呢? 之前我只写过放在一个sheet中,但是怎么放在多个sheet中呢?下面我在本地windows电脑中写的。希望对广大程序员有所帮助。 需要注意的是,期间遇到df1被df2覆盖的问题,这里我 ...
分类:
其他好文 时间:
2019-06-21 18:38:56
阅读次数:
431
[TOC] pandas模块 pandas基于Numpy,可以看成是处理文本或者表格数据。pandas中有两个主要的数据结构,其中Series数据结构类似于Numpy中的一维数组,DataFrame类似于多维表格数据结构。 pandas是python数据分析的核心模块。它主要提供了五大功能: 1.支 ...
分类:
编程语言 时间:
2019-06-18 21:36:32
阅读次数:
176
pandas 基于numpy模块,用于处理文本或表格数据,支持文件存取操作,支持数据库 Series 只能放一维数组 pd.DataFrame 二维数组及以上使用,生成一个表格 pd.date_range() 生成一个时间索引的一维数组 在生成的表格中查看各类数据 处理缺失数据 导入StringIO ...
分类:
其他好文 时间:
2019-06-17 20:38:21
阅读次数:
143
如何将下图中的浏览量(PV)、访客数(UV)、IP数这几列中的带有千位分隔符","的字符串类型转换成浮点数类型 示例代码如下: import pandas as pd test = pd.DataFrame({'A': ['1,232.1', '22,332.3', '3,232', '1,111, ...
分类:
其他好文 时间:
2019-06-17 10:28:34
阅读次数:
108
import pandas as pddf1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'], 'data1': range(7)}) df2 = pd.DataFrame({'key': ['a', 'b', 'd'], 'da... ...
分类:
编程语言 时间:
2019-06-16 14:10:28
阅读次数:
298
自己记录下,Dataframe数据需要转成字典,并且保证列标题中不能有 “,”等非string字符。 参考: https://stackoverflow.com/questions/49221550/pandas-insert-a-dataframe-to-mongodb?r=SearchResul ...
分类:
数据库 时间:
2019-06-13 16:57:11
阅读次数:
1103
1 loc()函数用于定位dataframe的某些行,可以进行切片操作,当只定位一行时,数据类型是series. 有时想要按dataframe中的某一列按条件进行索引时,可以将该列设置为索引列,即可用loc函数进行索引定位. ...
分类:
其他好文 时间:
2019-06-13 14:11:41
阅读次数:
1207