本文着重是重新梳理一下线性回归的概念,至于几行代码实现,那个不重要,概念明确了,代码自然水到渠成。 “机器学习”对于普通大众来说可能会比较陌生,但是“人工智能”这个词简直是太火了,即便是风云变化的股市中,只要是与人工智能、大数据、云计算相关的概念股票都会有很好的表现。机器学习是实现人工智能的基础,今 ...
分类:
编程语言 时间:
2018-12-01 22:12:54
阅读次数:
178
什么是Spark 1. 大数据计算框架 2. 离线批处理 3. 大数据体系架构图(Spark) 4. Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLib用于机器学习 ...
分类:
其他好文 时间:
2018-12-01 00:16:11
阅读次数:
204
1什么是HA集群? 所谓HA,即高可用(7*24小时不中断服务) HA集群是hadoop高可用集群,即有两个namenode,一个active,一个stanby,active的name挂掉之后,stanby的namenode就会切换成active, 最关键的是消除单节点故障 双namenode协调工 ...
分类:
其他好文 时间:
2018-11-29 15:39:38
阅读次数:
270
最近在工作中频繁的遇到精度问题 1、在js中,当两个带小数点的数值进行加减运算时,在某些特殊情况下如小数点末尾为9或相加为9等情况,则存在精度问题,结果为两位小数点的数据计算出来的结果为很长一串。 解决办法:由于业务涉及到钱,所以不能使用四舍五入,只能采取直接截取或别的,目的是保留两位小数。 在尝试 ...
分类:
其他好文 时间:
2018-11-28 17:37:30
阅读次数:
227
在项目里table开启合计功能,但是并未进行数据计算,后来发现是field写错了的问题,上代码 ...
分类:
其他好文 时间:
2018-11-26 20:16:30
阅读次数:
1381
定义 非关系型分布式列式数据库,支持大数据量查询(百万,上亿行) 概要 数据存储:HDFS 数据计算:MapReduce/Spark 服务协调:Zookeeper 特征 列式存储(列只有一种类型byte[]) 分布式 大数据存储(百万,上亿行; 上万列) 伸缩性,扩展性(列根据业务随意添加) 随机快 ...
分类:
其他好文 时间:
2018-11-23 20:40:22
阅读次数:
148
? spark sql 可以说是 spark 中的精华部分了,我感觉整体复杂度是 spark streaming 的 5 倍以上,现在 spark 官方主推 structed streaming, spark streaming 维护的也不积极了, 我们基于 spark 来构建大数据计算任务,重心也 ...
分类:
其他好文 时间:
2018-11-22 13:12:50
阅读次数:
166
一、前言 1、上一文搭建好了Hadoop单机模式,这一文继续搭建Hadoop集群 二、搭建Hadoop集群 1、根据上文的流程得到两台单机模式的机器,并保证两台单机模式正常启动,记得第二台机器core-site.xml内的fs.defaultFS参数值要改成本机的来启动,启动完毕后再改回来 2、清空 ...
分类:
其他好文 时间:
2018-11-21 11:01:35
阅读次数:
171
当拿到一份数据的时候,首先会怎么做? 描述性统计学,概率推断统计。 描述性统计学 数值数据:计算 分类数据:不能进行计算,例如,男1 女0 代表一个类别 数值数据和分类数据可以进行互相转换 一般描述统计的方式方法: 1.分类数据的描述性统计:单纯计数就可以 2.数据描述统计: 3.统计度量:平均数 ...
分类:
其他好文 时间:
2018-11-17 14:28:53
阅读次数:
210
一、Hive简介1、什么是HiveHive由Facebook实现并开源,是基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供HQL(HiveSQL)查询功能,底层数据是存储在HDFS上。Hive的本质是将SQL语句转换为MapReduce任务运行,使不熟悉MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化的数据,适用于离线的批量数据计算。Hive依
分类:
其他好文 时间:
2018-11-16 21:02:55
阅读次数:
169