码迷,mamicode.com
首页 >  
搜索关键字:大数据基础    ( 95个结果
大数据基础之词频统计Word Count
对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Spark分布式处理(Scala) ...
分类:其他好文   时间:2018-12-13 19:30:31    阅读次数:132
大数据基础之调度框架
常见调度框架实现方式 开源 Oozie 成熟稳定可靠,可直接用于生产环境 Azkaban 单点、简单粗暴,有两套独立的调度实现,必须二次开发才可用 Airflow 代码以及流程配置都是python 自己封装 基于quartz单机 使用zk来做分布式控制 常用quartz+zk做调度系统 使用db心跳 ...
分类:其他好文   时间:2018-12-12 19:04:14    阅读次数:237
大数据基础之如何导出jar包并放在hdfs上执行
我口才不好,文字描述也不行,但是基本逻辑是通的。导出jar包1.首先完成mapper和reducer还有main方法的编码2。右键点击peopleinfo的包,选择export-》Java-》JARfile,点击NEXT3.输入jar包名称以及导出地址,点击next->next4.点击Browse,选择主方法,点击OK,然后点击Finish放在hdfs上执行mapreduce的方法登陆到大数
分类:编程语言   时间:2018-12-05 21:44:21    阅读次数:218
电商大数据项目-推荐系统实战
本项目是基于Spark MLLib的大数据电商推荐系统项目,使用了scala语言和java语言。基于python语言的推荐系统项目会另外写一篇博客。在阅读本博客以前,需要有以下基础:1.linux的基本命令2.至少有高中及以上的数学基础。3.至少有java se基础,会scala语言和Java EE更佳(Jave EE非必需,但是可以帮助你更快理解项目的架构)。4.有github账户,并且至少知道git clone,fork,branch的概念。5。有网络基础,至少知道服务器端和客户端的区别。6.有大数据基础,最好会Hadoop,HDFS,MapReduce,Sqoop,HBase,Hive,Spark,Storm。7.有mysql数据库基础,至少会最基本的增删改查。
分类:其他好文   时间:2018-12-03 20:00:55    阅读次数:697
大数据基础Hadoop 2.x入门
hadoop概述 1. 存储和分析网络数据 2. 三大组件 MapReduce 对海量数据的处理 思想: 分而治之 每个数据集进行逻辑业务处理map 合并统计数据结果reduce HDFS 储存海量数据 分布式存储 安全性高 副本数据 YARN 分布式资源管理框架 管理整个集群的资源(内存、CPU核 ...
分类:其他好文   时间:2018-12-02 18:34:04    阅读次数:409
大数据基础学习路线(从零开始)
大数据已经火了很久了,一直想了解它学习它结果没时间,了解了一些资料,结合我自己的情况,整理了一个学习路线,。 学习路线 Linux(shell,高并发架构,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeepe ...
分类:其他好文   时间:2018-11-19 13:31:09    阅读次数:183
分分钟理解大数据基础之Spark
一背景Spark是2010年由UCBerkeleyAMPLab开源的一款基于内存的分布式计算框架,2013年被Apache基金会接管,是当前大数据领域最为活跃的开源项目之一Spark在MapReduce计算框架的基础上,支持计算对象数据可以直接缓存到内存中,大大提高了整体计算效率。特别适合于数据挖掘与机器学习等需要反复迭代计算的场景。二特性高效:Spark提供Cache机制,支持需要反复迭代的计算
分类:其他好文   时间:2018-11-15 12:03:46    阅读次数:205
《Cloudera hadoop大数据平台实战指南》此书预计2018年12月底上市
这本书由宋立桓老师和陈建平老师共同合作,本书的切入点明确而清晰,从Hadoop生态明星Cloudera入手,单刀直入逐步引出各类大数据基础和核心应用框架。全书系统介绍了大数据的相关知识,全书共十八章(宋立桓老师撰写第一章到第十二章、陈建平撰写第十三章到第十八章),从大数据概述、Clouderahadoop平台的安装部署、并对大数据hadoop组件分别进行介绍,包括HDFS分布式文件系统、MapRe
分类:其他好文   时间:2018-11-15 00:19:59    阅读次数:154
《Cloudera hadoop大数据平台实战指南》此书预计2018年12月底上市
这本书由宋立桓老师和陈建平老师共同合作,本书的切入点明确而清晰,从Hadoop生态明星Cloudera入手,单刀直入逐步引出各类大数据基础和核心应用框架。全书系统介绍了大数据的相关知识,全书共十八章(宋立桓老师撰写第一章到第十二章、陈建平撰写第十三章到第十八章),从大数据概述、Clouderahadoop平台的安装部署、并对大数据hadoop组件分别进行介绍,包括HDFS分布式文件系统、MapRe
分类:其他好文   时间:2018-11-14 21:00:22    阅读次数:179
学习Hadoop大数据基础框架
什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等于 ...
分类:其他好文   时间:2018-11-14 11:00:40    阅读次数:412
95条   上一页 1 ... 3 4 5 6 7 ... 10 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!