1.模块模块:一块python代码一组C语言的代码一堆写好的现成可以用的函数、类模块的作用:节省内存消耗模块的分类:内置模块扩展模块自定义模块2.常用模块###########collections#############namedtuple:可命名元祖namedtuple(‘名称‘,[属性list])##deque:实现插入和删除操作的双向列表支持append()appendl
分类:
编程语言 时间:
2018-07-06 11:26:05
阅读次数:
181
import random import string 生成随机字符串 洗牌 ...
分类:
编程语言 时间:
2018-06-30 22:59:52
阅读次数:
210
粘贴一下我在部门中的一次hive优化的分享。 简述 hive构建在hadoop基础上,利用分布式存储,通过mr引擎实现对大数据的计算。MR会频繁地读写磁盘而且MR任务的启动成本很高。对于hive优化显得尤为重要。而优化的核心就是更好地利用hadoop的分布式特性和hive的有点。本篇从IO、参数设置 ...
分类:
其他好文 时间:
2018-06-29 19:21:14
阅读次数:
160
>>> x = list(range(10)) #创建列表>>> print(x)[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]>>> import random>>> random.shuffle(x) #把列表中的元素打乱顺序>>> x[4, 0, 2, 7, 3, 9, 1, 6 ...
分类:
编程语言 时间:
2018-06-23 21:09:22
阅读次数:
163
什么时候需要 shuffle writer 假如我们有个 spark job 依赖关系如下 我们抽象出来其中的rdd和依赖关系: E < n , C <--n D n F--s , A < s B <--n `-- G 对应的划分后的RDD结构为: 最终我们得到了整个执行过程: 中间就涉及到shuf ...
分类:
其他好文 时间:
2018-06-20 00:51:33
阅读次数:
367
在之前的Hadoop是什么中已经说过MapReduce采用了分而治之的思想,MapReduce主要分为两部分,一部分是Map——分,一部分是Reduce——合MapReduce全过程的数据都是以键值对的形式存在的如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入。每天下午三点开直播分享基础知识,晚上20:00都会开直播给大家分享大数据项目
分类:
其他好文 时间:
2018-06-15 22:43:07
阅读次数:
183
希望在毫不知情(很少的人类介入)的情况下实现。即端对端的实现。 一、Intro 工具推荐: 二、Auto-Encoder 使用自编码器的情况:1)拿到的原始数据缺少标签 (数据降噪) 2)数据太大了,需要进行降维,使得最后数据集大小可接受(例如可以讲原始的8*8图片压缩成2*1的) 将原始图片“数字 ...
分类:
其他好文 时间:
2018-06-06 18:19:08
阅读次数:
173
一个简单的例子 朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下: 这个公式虽然看上去简单,但它却能总结历史,预知未来。公式的右边是总结历史,公式的左边是预知未来,如果把Y看出类别,X看出特征,P(Yk|X)就是在已知特征X的情况下求Yk类别的概率,而 ...
分类:
编程语言 时间:
2018-05-23 17:02:32
阅读次数:
213
import random random.random() #生成0-1的随机浮点数 random.randint(1, 10) #生成1-10的整数 random.randrange(1,10) #生成1-9的整数 random.choice('hello') #随机选择里面的数 ,可以是元组,列 ...
分类:
其他好文 时间:
2018-05-23 13:04:58
阅读次数:
143