码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
大数据基石——Hadoop与MapReduce
本文始发于个人公众号:TechFlow 近两年AI成了最火热领域的代名词,各大高校纷纷推出了人工智能专业。但其实,人工智能也好,还是前两年的深度学习或者是机器学习也罢,都离不开底层的数据支持。对于动辄数以TB记级别的数据,显然常规的数据库是满足不了要求的。今天,我们就来看看大数据时代的幕后英雄——H ...
分类:其他好文   时间:2019-12-28 22:38:52    阅读次数:106
sqoop--数据库和hdfs之间的搬运工
sqoop简介 sqoop是一款开源的工具,主要用于在hadoop和与传统的数据库之间进行的数据的传递,可以将一个关系型数据库中的数据导入到hadoop的hdfs中,也可以将hdfs的数据导入到关系型数据库中。sqoop的命名由来就是 ,它的原理就是将导入或者导出命令翻译成MapReduce来实现, ...
分类:数据库   时间:2019-12-28 16:30:57    阅读次数:131
大数据技术生态体系
HDFS架构概述 HDFS(Hadoop Distributed File System)的架构 2.5.3 MapReduce架构概述 MapReduce将计算过程分为两个阶段:Map和Reduce,如图2-25所示 1)Map阶段并行处理输入数据 2)Reduce阶段对Map结果进行汇总 图中涉 ...
分类:其他好文   时间:2019-12-27 21:42:53    阅读次数:71
Hadoop学习之路(5)Mapreduce程序完成wordcount
本文在Windows端实现了WordCount功能
分类:其他好文   时间:2019-12-27 19:40:55    阅读次数:100
Hive(1)-基本概念
1. 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数 ...
分类:其他好文   时间:2019-12-27 13:08:13    阅读次数:92
Spark原理及关键技术点
Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同 ...
分类:其他好文   时间:2019-12-27 00:11:15    阅读次数:106
MapReduce的工作流程
MapReduce的工作流程 1.客户端将每个block块切片(逻辑切分),每个切片都对应一个map任务,默认一个block块对应一个切片和一个map任务,split包含的信息:分片的元数据信息,包含起始位置,长度,和所在节点列表等 2.map按行读取切片数据,组成键值对,key为当前行在源文件中的 ...
分类:其他好文   时间:2019-12-26 20:57:26    阅读次数:74
HBase学习解析之起源.md
概述HBase是谷歌公司BigTable的开源实现。BigTable是一个分布式存储系统,利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据,使用谷歌分布式文件系统GFS作为底层数据存储,并采用Chubby提供协同服务管理,可以扩展到PB级别的数据和上千台机器,具备广泛应用型、可扩展性... ...
分类:其他好文   时间:2019-12-26 11:13:14    阅读次数:155
cdh 系统配置文件更新 error parsing conf core-site.xml
环境描述:redhat7.3 CDH5.15.1 采用parcels方式部署 报错描述:airflow调度程序,最近2周偶尔报错,报错类型有2类:1、无法初始化集群配置;2、读取配置权限问题 报错一: Launching Job 1 out of 1 Number of reduce tasks i ...
分类:其他好文   时间:2019-12-24 19:03:56    阅读次数:337
使用BulkLoad从HDFS批量导入数据到HBase
在向Hbase中写入数据时,常见的写入方法有使用HBaseAPI,Mapreduce批量导入数据,使用这些方式带入数据时,一条数据写入到HBase数据库中的大致流程如图。数据发出后首先写入到雨鞋日志WAl中,写入到预写日志中之后,随后写入到内存MemStore中,最后在Flush到Hfile中。这样写数据的方式不会导致数据的丢失,并且道正数据的有序性,但是当遇到大量的数据写入时,写入的速度就难以保
分类:其他好文   时间:2019-12-23 11:44:43    阅读次数:247
4057条   上一页 1 ... 27 28 29 30 31 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!