搜索关键字：大数据处理，搜索到465个结果！码迷,mamicode.com！

大数据学习教程：五大核心技术有哪些？

大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架，主要分为下面几个方面：数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。一、数据采集 ...

分类：其他好文时间：2019-04-23 15:39:37 阅读次数：163

USQL如何帮爱普新媒降低80%成本，提升50%数据分析速度

“使用USQL产品，用户在原有的数据文件基础上进行数据建模，即可使用SQL进行业务数据的快速查询，此种方式对原有数据文件改动较小，用户不用关注大数据分布式处理的过程，业务迁移方便。对比我们现有的大数据处理方案，节省80%的服务器成本，提升50%数据分析速度，同时也缩短了新业务的开发周期，值得推荐。”——爱普新媒CTO牛德恒USQL是什么？数据湖分析（USQL）是一种可扩展性强、成本低廉的无服务器S

分类：数据库时间：2019-04-22 19:26:51 阅读次数：176

月薪3万+的大数据人都在疯学Flink，为什么？

身处大数据圈近5年了，在我的概念里一直认为大数据最牛的两个东西是Hadoop和Spark。18年下半年的时候，我突然发现身边很多大数据牛人都是研究学习Flink，甚至连Spark都大有被冷落抛弃的感觉。何以至此，Flink是个什么鬼？ Apache Flink（简称Flink）是一个分布式大数据处理 ...

分类：其他好文时间：2019-04-04 14:37:39 阅读次数：177

Spark与Flink大数据处理引擎对比分析！

大数据技术正飞速地发展着，催生出一代又一代快速便捷的大数据处理引擎，无论是Hadoop、Storm，还是后来的Spark、Flink。然而，毕竟没有哪一个框架可以完全支持所有的应用场景，也就说明不可能有任何一个框架可以完全取代另一个。今天，将从几个项出发着重对比Spark与Flink这两个大数据处理 ...

分类：其他好文时间：2019-03-28 15:41:15 阅读次数：127

数据清洗

数据清洗(Data Cleaning)——https://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97 目录 [隐藏] 目录 1 什么是数据清洗[1] 2 数据清洗原理[2] 3 数据清洗的实现方式与范围[2] 4 数据清洗的方法 ...

分类：其他好文时间：2019-03-24 10:02:24 阅读次数：244

Hadoop基础与电商行为日志分析新手入门大数据

第1章大数据概述本章将从故事说起，让大家明白大数据是与我们的生活息息相关的，并不是遥不可及的，还会介绍大数据的特性，以及大数据对我们带来的技术变革，大数据处理过程中涉及到的技术以及大数据典型应用。第2章初识Hadoop本章节将带领大家认识Hadoop以及Hadoop生态系统、Hadoop的发展史 ...

分类：其他好文时间：2019-03-10 09:33:09 阅读次数：729

flink入门实例-Windows下本地模式跑SocketWordCount

一般情况下，开发大数据处理程序，我们希望能够在本地编写代码并调试通过，能够在本地进行数据测试，然后在生产环境去跑“大”数据。一、nc工具配置windows的nc端口，在网上下载nc.exe(https://eternallybored.org/misc/netcat/) 使用命令开始nc制定端口 ...

分类：Windows程序时间：2019-02-26 00:43:27 阅读次数：573

关于hdfs的一些认知

先从网上copy一些优势点 1、高容错性数据自动保存多个副本。它通过增加副本的形式，提高容错性。某一个副本丢失以后，它可以自动恢复，这是由 HDFS 内部机制实现的，我们不必关心。 2、适合批处理它是通过移动计算而不是移动数据。它会把数据位置暴露给计算框架。 3、适合大数据处理处理数据达到 GB、T ...

分类：其他好文时间：2019-01-31 13:04:52 阅读次数：204

R语言数据结构二

上节我们讲到R语言中的基本数据类型，包括数值型，复数型，字符型，逻辑型以及对应的操作和不同数值类型之间的转换。众所周知，R语言的优势在于进行数据挖掘，大数据处理等方面，因此单个的数据并不能满足我们的需要，于是向量，矩阵，数组，数据框等变量类型应运而生。向量：与我们在数学里面所学到的向量不同，R语言 ...

分类：编程语言时间：2019-01-29 20:30:20 阅读次数：299

从Storm到Flink：大数据处理的开源系统及编程模型

开源系统及编程模型基于流计算的基本模型，当前已有各式各样的分布式流处理系统被开发出来。本节将对当前开源分布式流处理系统中三个最典型的代表性的系统：ApacheStorm，SparkStreaming，ApacheFlink以及它们的编程模型进行详细介绍。ApacheStormApacheStorm是由Twitter公司开源的一个实时分布式流处理系统[2]，被广泛应用在实时分析、在线机器学习连续计算

分类：其他好文时间：2019-01-27 19:23:56 阅读次数：263

共465条上一页 1 ... 7 8 9 10 11 ... 47 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)