声明:本文参考了淘宝/滴滴/美团发表的关于大数据平台建设的文章基础上予以整理。参考链接和作者在文末给出。 在此对三家公司的技术人员无私奉献精神表示感谢,如果文章造成了侵权行为,请联系本人删除。本人在尊重事实的基础上重新组织了语言和内容,旨在给读者揭开一个完善的大数据平台的组成和发展过程。 本文在未经 ...
分类:
其他好文 时间:
2019-09-13 17:30:56
阅读次数:
122
随着业务的发展,数据量剧增,我们一些简单报表大盘类的任务,就不能简单的依赖于RDBMS了,而是依赖于数仓之类的大数据平台。 数仓有着巨量数据的存储能力,但是一般都存在一定数据延迟,所以要想完全依赖数数仓来解决实时报表问题,是困难的。 其实,所谓的实时报表,往简单了说就是: 对现在的一些数据进行加减乘 ...
分类:
其他好文 时间:
2019-08-18 11:42:09
阅读次数:
67
1.CM(Cloudera Manager)介绍 1.1 简介 Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。 对比Apache / CDH / ...
分类:
其他好文 时间:
2019-08-16 22:35:14
阅读次数:
257
Spark大数据平台有使用一段时间了,但大部分都是用于实验而搭建起来用的,搭建过Spark完全分布式,也搭建过用于测试的伪分布式。现在是写一遍随笔,记录一下曾经搭建过的环境,免得以后自己忘记了。也给和初学者以及曾经挖过坑的人用作参考。 Hive on Spark是Hive跑在Spark上,用的是Sp ...
分类:
其他好文 时间:
2019-08-10 21:07:25
阅读次数:
138
又是一个周末,本来是已经打开wegame,更新一下许久未碰的lol,后来实在等不下去了,还是想想写写博客,正好最近也在学习CDH;刚刚就像女生买东西一样,毫不犹豫地买了3个云主机,好了,废话不多说,下面我们正式开始CDH搭建大数据平台。 一、Hadoop是什么? Hadoop是一个分布式系统架构,由 ...
分类:
其他好文 时间:
2019-08-10 09:20:16
阅读次数:
494
大数据平台是为了满足企业对于数据的各种要求而产生的。大数据平台:是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。既可以采用开源平台,也可以采用华为、星环等商业级解决方案,既可以部署在私有云上,也可以部署在公有云上。大数据平台的功能:1、容纳海量数据利用计算机群集的存储和计算能
分类:
其他好文 时间:
2019-08-08 16:04:32
阅读次数:
108
概述 以 Hortonworks Data Platform (HDP) 平台为例 ,hadoop大数据平台的安全机制包括以下两个方面: 身份认证 即核实一个使用者的真实身份,一个使用者来使用大数据引擎平台,这个使用者需要表明自己是谁,即提供自己的身份证明,大数据平台需要检验这个证明,确定这个证明是 ...
分类:
其他好文 时间:
2019-08-06 01:11:23
阅读次数:
184
背景 魔镜是数据产品研发部基于大数据平台开发的一套可视化数据智能平台。传统机器学习建模流程对非数据科学专业人员来说,整体门槛较高,其中主要体现在几个方面: 1. 机器学习概念较为抽象 比如训练集、验证集、测试集、特征、维度、标签泄露、欠拟合、过拟合、学习曲线、验证曲线、ROC曲线、混淆矩阵等等,除了 ...
分类:
其他好文 时间:
2019-08-04 10:45:51
阅读次数:
164
2019年暑期,众所期待的新书《开源安全运维平台OSSIM疑难解析:入门篇》开始印刷。此书从立意到付梓,历时超过两年,经过数十次大修,历经曲折与艰辛,希望为大家代奉献一本好书,愿这本书能陪伴OSSIM用户一起进步一起成长。
分类:
其他好文 时间:
2019-08-02 12:46:45
阅读次数:
89
任职资格: (1)有客户端反病毒、安全产品技术分析者; (2)独立或合作开发过安全相关工具、平台、项目者; (3)有具有数据挖掘(Data Mining)、模式识别(Pattern Matching)、大数据分析经验或算法经验者; (4)有大数据平台、政府监管行业、安全行业产品背景优先。 相关技术 ...
分类:
其他好文 时间:
2019-07-27 17:09:00
阅读次数:
131