背景 相较传统的重量级OLAP数据仓库,“数据湖”以其数据体量大、综合成本低、支持非结构化数据、查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式。 数据湖的核心功能,简单地可以分为数据存储与数据查询计算两个部分,在云端可以有多种的实现选择。在之前的文章中,我们曾介绍 ...
分类:
其他好文 时间:
2019-08-18 11:24:20
阅读次数:
105
1.CM(Cloudera Manager)介绍 1.1 简介 Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。 对比Apache / CDH / ...
分类:
其他好文 时间:
2019-08-16 22:35:14
阅读次数:
257
Spark大数据平台有使用一段时间了,但大部分都是用于实验而搭建起来用的,搭建过Spark完全分布式,也搭建过用于测试的伪分布式。现在是写一遍随笔,记录一下曾经搭建过的环境,免得以后自己忘记了。也给和初学者以及曾经挖过坑的人用作参考。 Hive on Spark是Hive跑在Spark上,用的是Sp ...
分类:
其他好文 时间:
2019-08-10 21:07:25
阅读次数:
138
又是一个周末,本来是已经打开wegame,更新一下许久未碰的lol,后来实在等不下去了,还是想想写写博客,正好最近也在学习CDH;刚刚就像女生买东西一样,毫不犹豫地买了3个云主机,好了,废话不多说,下面我们正式开始CDH搭建大数据平台。 一、Hadoop是什么? Hadoop是一个分布式系统架构,由 ...
分类:
其他好文 时间:
2019-08-10 09:20:16
阅读次数:
494
大数据平台是为了满足企业对于数据的各种要求而产生的。大数据平台:是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。既可以采用开源平台,也可以采用华为、星环等商业级解决方案,既可以部署在私有云上,也可以部署在公有云上。大数据平台的功能:1、容纳海量数据利用计算机群集的存储和计算能
分类:
其他好文 时间:
2019-08-08 16:04:32
阅读次数:
108
概述 以 Hortonworks Data Platform (HDP) 平台为例 ,hadoop大数据平台的安全机制包括以下两个方面: 身份认证 即核实一个使用者的真实身份,一个使用者来使用大数据引擎平台,这个使用者需要表明自己是谁,即提供自己的身份证明,大数据平台需要检验这个证明,确定这个证明是 ...
分类:
其他好文 时间:
2019-08-06 01:11:23
阅读次数:
184
背景 魔镜是数据产品研发部基于大数据平台开发的一套可视化数据智能平台。传统机器学习建模流程对非数据科学专业人员来说,整体门槛较高,其中主要体现在几个方面: 1. 机器学习概念较为抽象 比如训练集、验证集、测试集、特征、维度、标签泄露、欠拟合、过拟合、学习曲线、验证曲线、ROC曲线、混淆矩阵等等,除了 ...
分类:
其他好文 时间:
2019-08-04 10:45:51
阅读次数:
164
2019年暑期,众所期待的新书《开源安全运维平台OSSIM疑难解析:入门篇》开始印刷。此书从立意到付梓,历时超过两年,经过数十次大修,历经曲折与艰辛,希望为大家代奉献一本好书,愿这本书能陪伴OSSIM用户一起进步一起成长。
分类:
其他好文 时间:
2019-08-02 12:46:45
阅读次数:
89
1.网络爬虫:抓取网络数据的程序用python程序模仿人去访问网站,逼真度越真越好可以用来爬取有价值的数据 2.企业获取数据的方式 1 自有数据 比如 自家职员信息表格等 2 第三方数据平台购买 数据堂、贵阳大数据交易所 3 爬虫爬取数据 3.其他语言也可以做爬虫如PHP,JAVA,C、C++ 4、 ...
分类:
其他好文 时间:
2019-07-29 14:22:43
阅读次数:
108
任职资格: (1)有客户端反病毒、安全产品技术分析者; (2)独立或合作开发过安全相关工具、平台、项目者; (3)有具有数据挖掘(Data Mining)、模式识别(Pattern Matching)、大数据分析经验或算法经验者; (4)有大数据平台、政府监管行业、安全行业产品背景优先。 相关技术 ...
分类:
其他好文 时间:
2019-07-27 17:09:00
阅读次数:
131