demo2: 推荐使用:Jupyter Notebook 做练习,很方便。 ...
分类:
编程语言 时间:
2018-09-15 12:21:57
阅读次数:
200
在此我用的concat作用是加入新的记录,存储数据来用过的,不知道数据量大时候,效率会怎样 注意:要有ignore_index=True,要不然你的DataFrame的索引一直都会是零! ...
分类:
其他好文 时间:
2018-09-12 15:52:04
阅读次数:
1907
spark sql快速入门主要内容有:Spark SQL前世今生(Hive&Shark、Shark&SparkSQL)、简介(SQL和DataFrame/DataSet)、DataFrame与DataSet创建及操作、SQL操作。
分类:
数据库 时间:
2018-09-10 00:58:33
阅读次数:
257
用来生成DataFrame数据 1.说明: class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False) Two-dimensional size-mutable, potentially he ...
分类:
其他好文 时间:
2018-09-09 19:59:16
阅读次数:
169
用于模型的训练 1.说明: lightgbm.train(params, train_set, num_boost_round=100, valid_sets=None, valid_names=None, fobj=None, feval=None, init_model=None, featur ...
分类:
其他好文 时间:
2018-09-09 15:26:27
阅读次数:
1108
import pandas as pd import numpy as np # 读取数据,并以表格的形式显示 df1 = pd.DataFrame(pd.read_excel('a.xlsx')) # 判断是否为空,每个表格都会去判断,并返回True/False a1 = df1.isnull()... ...
分类:
其他好文 时间:
2018-09-09 12:05:07
阅读次数:
170
数据合并时可以使用merge方法,对两个dataFrame根据某一个series合并,这个方法非常好用,只要找到了合并的标准,新的数据就可以重构出来。 1.命令: pd.merge() on:列名,join用来对齐的那一列的名字,用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名。 ...
分类:
其他好文 时间:
2018-09-08 17:59:46
阅读次数:
569
concat方法,用于拼接pandas数据,用处比较大 函数: 参数说明: objs:pandas数据,可以是series,dataFrame,或者是panel构成的序列 axis:需要合并拼接的轴,0表示行,1表示列 join:连接的方式,inner,outer 例子: 上面是将两个dataFra ...
分类:
其他好文 时间:
2018-09-08 17:16:40
阅读次数:
302
一、前述 1、SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。 SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础。 能够在Sca ...
分类:
数据库 时间:
2018-09-07 14:11:03
阅读次数:
263
一、DataFrame:有列名的RDD 首先,我们知道SparkSQL的目的是用sql语句去操作RDD,和Hive类似。SparkSQL的核心结构是DataFrame,如果我们知道RDD里面的字段,也知道里面的数据类型,就好比关系型数据库里面的一张表。那么我们就可以写SQL,所以其实这儿我们是不能用 ...
分类:
数据库 时间:
2018-09-07 14:09:09
阅读次数:
232