比较重要的四种分布:正态分布、卡方分布、F分布、t分布 卡方分布概率密度曲线 t分布概率密度曲线 F分布概率密度曲线 参考资料: 统计学中四个概率分布 重要抽样分布 ...
分类:
编程语言 时间:
2019-12-31 10:58:58
阅读次数:
146
一,hive介绍 1.来源 facebook的数据仓库计算框架,后来开源给了Apache 主要做离线计算即就是不要求实时获取结果 2.数据仓库 数据库一般分为:OLAP OLTP 就是通过以往的数据分析,对现在的业务或者发展发现提供数据的支持 就是从历史数据中心发掘价值 一般有一下几种模式 星型模式 ...
分类:
其他好文 时间:
2019-12-30 14:29:22
阅读次数:
114
什么是总体和样本? 随机数random模块 # 导入 random(随机数) 模块 import random ''' 使用random 模块的 randint() 函数来生成随机数 语法是:random.randint(a,b) 函数返回数字 N , N 为a到b之间的数字(a <= N <= b ...
分类:
其他好文 时间:
2019-12-29 00:43:54
阅读次数:
93
概述: UniLM是微软研究院在Bert的基础上,最新产出的预训练语言模型,被称为统一预训练语言模型。它可以完成单向、序列到序列和双向预测任务,可以说是结合了AR和AE两种语言模型的优点,Unilm在抽象摘要、生成式问题回答和语言生成数据集的抽样领域取得了最优秀的成绩。 一、AR与AE语言模型 AR ...
分类:
其他好文 时间:
2019-12-29 00:23:06
阅读次数:
319
中心极限定理指的是给定一个任意分布的总体。每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。 我们先举个栗子现在我们要统计全国的人的体重,看看我国平均体重是多少。当然,我们把全国所有人的体重都调查一遍是不现实的。所以我们打算一 ...
分类:
其他好文 时间:
2019-12-20 11:56:59
阅读次数:
86
1、 map(func) 作用 : 返回一个新的 RDD, 该 RDD 是由原 RDD 的每个元素经过函数转换后的值而组成. 就是对 RDD 中的数据做转换. 创建一个包含1 10的的 RDD,然后将每个元素 2形成新的 RDD 2、mapPartitions(func) 作用 : 类似于map(f ...
分类:
其他好文 时间:
2019-12-15 20:28:24
阅读次数:
96
讲授集成学习的概念,Bootstrap抽样,Bagging算法,随机森林的原理,训练算法,包外误差,计算变量的重要性,实际应用 大纲: 集成学习简介 Boostrap抽样 Bagging算法 随机森林的基本原理 训练算法 包外误差 计算变量的重要性 实验环节 实际应用 随机森林是一种集成学习的算法, ...
分类:
其他好文 时间:
2019-12-15 12:33:49
阅读次数:
100
点击下载《不一样的双11技术:阿里巴巴经济体云原生实践》本文节选自《不一样的双11技术:阿里巴巴经济体云原生实践》一书,点击上方图片即可下载!作者|方克明(溪翁)阿里云中间件技术部技术专家导读:云原生已成为整个阿里巴巴经济体构建面向未来的技术基础设施,ServiceMesh作为云原生的关键技术之一,顺利完成在双11核心应用严苛而复杂场景下的落地验证。本文作者将与大家分享在完成这一目标过程中我们所面
分类:
其他好文 时间:
2019-12-11 13:32:49
阅读次数:
151
1.假设检验定义 是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。 2.显著性检验原理 是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。 3.假设检验的基本思想 反证法及小概率原理 反证法是先提出检验假设,再用适当的 ...
分类:
其他好文 时间:
2019-12-08 15:40:00
阅读次数:
92
认识 Bagging 的全称为 (BootStrap Aggregation), 嗯, 咋翻译比较直观一点呢, 就 有放回抽样 模型训练? 算了, 就这样吧, 它的Paper是这样的: Algorithm Bagging: 1. Let n be the number of bootstrap sa ...
分类:
其他好文 时间:
2019-12-08 01:14:01
阅读次数:
73