码迷,mamicode.com
首页 >  
搜索关键字:大数据处理    ( 465个结果
大数据学习教程:五大核心技术有哪些?
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。 一、数据采集 ...
分类:其他好文   时间:2019-04-23 15:39:37    阅读次数:163
USQL如何帮爱普新媒降低80%成本,提升50%数据分析速度
“使用USQL产品,用户在原有的数据文件基础上进行数据建模,即可使用SQL进行业务数据的快速查询,此种方式对原有数据文件改动较小,用户不用关注大数据分布式处理的过程,业务迁移方便。对比我们现有的大数据处理方案,节省80%的服务器成本,提升50%数据分析速度,同时也缩短了新业务的开发周期,值得推荐。”——爱普新媒CTO牛德恒USQL是什么?数据湖分析(USQL)是一种可扩展性强、成本低廉的无服务器S
分类:数据库   时间:2019-04-22 19:26:51    阅读次数:176
月薪3万+的大数据人都在疯学Flink,为什么?
身处大数据圈近5年了,在我的概念里一直认为大数据最牛的两个东西是Hadoop和Spark。18年下半年的时候,我突然发现身边很多大数据牛人都是研究学习Flink,甚至连Spark都大有被冷落抛弃的感觉。何以至此,Flink是个什么鬼? Apache Flink(简称Flink)是一个分布式大数据处理 ...
分类:其他好文   时间:2019-04-04 14:37:39    阅读次数:177
Spark与Flink大数据处理引擎对比分析!
大数据技术正飞速地发展着,催生出一代又一代快速便捷的大数据处理引擎,无论是Hadoop、Storm,还是后来的Spark、Flink。然而,毕竟没有哪一个框架可以完全支持所有的应用场景,也就说明不可能有任何一个框架可以完全取代另一个。今天,将从几个项出发着重对比Spark与Flink这两个大数据处理 ...
分类:其他好文   时间:2019-03-28 15:41:15    阅读次数:127
数据清洗
数据清洗(Data Cleaning)——https://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97 目录 [隐藏] 目录 1 什么是数据清洗[1] 2 数据清洗原理[2] 3 数据清洗的实现方式与范围[2] 4 数据清洗的方法 ...
分类:其他好文   时间:2019-03-24 10:02:24    阅读次数:244
Hadoop基础与电商行为日志分析 新手入门大数据
第1章 大数据概述本章将从故事说起,让大家明白大数据是与我们的生活息息相关的,并不是遥不可及的,还会介绍大数据的特性,以及大数据对我们带来的技术变革,大数据处理过程中涉及到的技术以及大数据典型应用。第2章 初识Hadoop本章节将带领大家认识Hadoop以及Hadoop生态系统、Hadoop的发展史 ...
分类:其他好文   时间:2019-03-10 09:33:09    阅读次数:729
flink入门实例-Windows下本地模式跑SocketWordCount
一般情况下,开发大数据处理程序,我们希望能够在本地编写代码并调试通过,能够在本地进行数据测试,然后在生产环境去跑“大”数据。 一、nc工具 配置windows的nc端口,在网上下载nc.exe(https://eternallybored.org/misc/netcat/) 使用命令开始nc制定端口 ...
分类:Windows程序   时间:2019-02-26 00:43:27    阅读次数:573
关于hdfs的一些认知
先从网上copy一些优势点 1、高容错性数据自动保存多个副本。它通过增加副本的形式,提高容错性。某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。 2、适合批处理它是通过移动计算而不是移动数据。它会把数据位置暴露给计算框架。 3、适合大数据处理处理数据达到 GB、T ...
分类:其他好文   时间:2019-01-31 13:04:52    阅读次数:204
R语言数据结构二
上节我们讲到R语言中的基本数据类型,包括数值型,复数型,字符型,逻辑型以及对应的操作和不同数值类型之间的转换。众所周知,R语言的优势在于进行数据挖掘,大数据处理等方面,因此单个的数据并不能满足我们的需要,于是向量,矩阵,数组,数据框等变量类型应运而生。 向量:与我们在数学里面所学到的向量不同,R语言 ...
分类:编程语言   时间:2019-01-29 20:30:20    阅读次数:299
从Storm到Flink:大数据处理的开源系统及编程模型
开源系统及编程模型基于流计算的基本模型,当前已有各式各样的分布式流处理系统被开发出来。本节将对当前开源分布式流处理系统中三个最典型的代表性的系统:ApacheStorm,SparkStreaming,ApacheFlink以及它们的编程模型进行详细介绍。ApacheStormApacheStorm是由Twitter公司开源的一个实时分布式流处理系统[2],被广泛应用在实时分析、在线机器学习连续计算
分类:其他好文   时间:2019-01-27 19:23:56    阅读次数:263
465条   上一页 1 ... 7 8 9 10 11 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!