本文源码:GitHub·点这里||GitEE·点这里一、ClickHouse简介1、基础简介Yandex开源的数据分析的数据库,名字叫做ClickHouse,适合流式或批次入库的时序数据。ClickHouse不应该被用作通用数据库,而是作为超高性能的海量数据快速查询的分布式实时处理平台,在数据汇总查询方面(如GROUPBY),ClickHouse的查询速度非常快。2、数据分析能力OLAP场景特征·
分类:
数据库 时间:
2019-10-22 09:16:32
阅读次数:
122
本文主要介绍pandas分组与聚合,介绍了采用groupby方法进行分组及其它分组方式、采用agg方法传入自定义函数、外连接方法及apply方法的使用
分类:
其他好文 时间:
2019-10-17 01:03:59
阅读次数:
74
groupBy(f, numPartitions=None, partitionFunc=<function portable_hash>):根据 条件 分组,这个条件是一个函数;输出 (key,迭代器) groupByKey(numPartitions=None, partitionFunc=<f ...
分类:
其他好文 时间:
2019-10-11 18:38:54
阅读次数:
157
1)创建一个样例类 scala> case class People(name:String,age:Long)defined class People 2)创建DataSet scala> val caseClassDS = Seq(People("Andy",32)).toDS()caseCla ...
分类:
其他好文 时间:
2019-10-09 00:19:05
阅读次数:
254
数据处理的目的是为了数据分析,下面分享常用的数据分析中会用到的函数。 一,分组和聚合 groupby用于对数据分组,分组之后可以直接调用聚合函数求值;agg()函数把分组和调用聚合函数集成到一个函数来实现: 二,窗口 rolling()是指按照窗口滚动求值,expanding()是指依次递增1,计算 ...
分类:
其他好文 时间:
2019-10-08 14:12:12
阅读次数:
848
#k-means聚类分析 数据标准化zcdata=(cdata-cdata.mean())/cdata.std()zcdata.head()from sklearn.cluster import KMeanskmodel=KMeans(n_clusters=4,n_jobs=4,max_iter=1 ...
分类:
其他好文 时间:
2019-10-04 23:21:33
阅读次数:
233
import pandas as pdpivot_data=pd.read_excel('./data/data3.xlsx')pivot_data.head()pivot_data.describe(include='all').T import numpy as np#透视表 求进货价合计、平均 ...
分类:
其他好文 时间:
2019-10-03 22:10:46
阅读次数:
103
注,reduce之前已经shuff。 mapper.py reducer.py Improved Mapper and Reducer code: using Python iterators and generators mapper.py reducer.py ...
分类:
移动开发 时间:
2019-10-03 14:39:29
阅读次数:
206
RDD是只读记录分区的集合 ,只能通过在其他RDD执行确定的转换操作(如map、join和groupBy)或直接读取外部存储而创建,然而这些限制使得实现容错的开销很低。与分布式共享内存系统需要付出高昂代价的检查点和回滚机制不同, RDD通过Lineage来重建丢失的分区 ; 一个RDD包含如何从其他 ...
分类:
其他好文 时间:
2019-09-29 16:47:35
阅读次数:
105
map和flatMap map flatMap Map和flatMap的区别 sorted/sortedBy/sortWith groupBy reduce/fold reduce reduceLeft reduceRight fold foldLeft foldRight filter/filte ...
分类:
其他好文 时间:
2019-09-20 12:09:00
阅读次数:
79