[Toc] 一、初识大数据 大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 1MB = 1024KB、1GB = 1024MB 1TB = 1024GB、 ...
分类:
其他好文 时间:
2020-04-07 14:19:05
阅读次数:
132
2019-12-01 00:23:08 来源:https://dblab.xmu.edu.cn/post/bigdataroadmap/ https://www.icourse163.org/learn/XMU-1002335004?tid=1206559203#/learn/custom?id=1 ...
分类:
其他好文 时间:
2019-12-01 09:17:30
阅读次数:
92
好程序员大数据学习路线分享Scala系列之泛型,带有一个或多个类型参数的类是泛型的。泛型类的定义://带有类型参数A的类定义classStack[A]{privatevarelements:List[A]=Nil//泛型方法defpush(x:A){elements=x::elements}defpeek:A=elements.headdefpop():A={valcurrentTop=pee
分类:
其他好文 时间:
2019-10-10 17:25:43
阅读次数:
96
好程序员大数据学习路线继续为大家分享Scala系列之集合操作函数4.6集合的重要函数4.6.1sum/max/min/count在序列中查找最大或最小值是一个极常见的需求,如下:valnumbers=Seq(11,2,5,1,6,3,9)numbers.max//11numbers.min//1更高级的例子,其中包含一个书的序列caseclassBook(title:String,pages:In
分类:
其他好文 时间:
2019-09-10 16:15:59
阅读次数:
112
好程序员大数据学习路线分享Scala分支和循环3.3.条件表达式表达式:一个具有执行结果的代码块。结果是具体的值或者()表达式的思考方式:以表达式为中心的编程思想1.表达式和语句的区别:表达式有返回值,语句被执行。表达式一般是一个语句块,执行后,返回一个值2.不使用return语句,最后一个表达式即返回值if/else表达式有值,这个值就是跟在if或者else之后的表达式的值objectCondi
分类:
其他好文 时间:
2019-09-02 19:39:24
阅读次数:
121
大数据学习路线分享Hadoop阶段的高可用配置,什么是Hadoop的HA机制 Ha机制即Hadoop的高可用(7*24小时不中断服务) 正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制 hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HAHDFS的HA机制详解HDFS的HA主要是通过双namenode协调工作实现双namenode协调
分类:
其他好文 时间:
2019-08-28 23:57:40
阅读次数:
186
1.客户端或者用户通过调用FileSystem对象的Open()方法打开需要读取的文件,这时就是HDSF分布式系统所获取的一个对象 2.FileSystem通过远程协议调用NameNode确定文件的前几个Block的位置,对于每一个block,NameNode返回一个含有Block的元数据信息,接下来DataNode按照上面定义的距离(offSet偏移量)进行排序,如果Client本身即是一
分类:
其他好文 时间:
2019-08-28 17:08:14
阅读次数:
87
大数据学习路线分享MapReduce全过程解析,移动数据与移动计算 在学习大数据的时候接触了移动数据和移动计算这两种联系紧密而又有很大不同的概念,其中移动计算也叫做本地计算。 在以前的数据处理中时使用的移动数据,其实就是将需要处理的数据传输到存放不同处理数据方式逻辑的各个节点上。这样做的效率很低,特 ...
分类:
其他好文 时间:
2019-08-27 17:29:13
阅读次数:
90
好程序员大数据学习路线Hadoop学习干货分享,ApacheHadoop为可靠的,可扩展的分布式计算开发开源软件。ApacheHadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。包括这些模块:HadoopCommon:支持其他Hadoop模块的常用工具。Hadoop分布式文件系统(HDFS?):一种分布式文件系统,可提供对应用程序数据的高吞吐量
分类:
其他好文 时间:
2019-08-27 17:06:02
阅读次数:
85
好程序员大数据学习路线分享MAPREDUCE,需求:统计大量的文本文件中的单词出现的次数1)整个运算需要分阶段阶段一:并行局部运算阶段二:汇总处理,不同的阶段需要开发不同的程序2)阶段之间的调用3)业务程序(task程序)如何并发到集群并启动程序4)如何监控task程序的运行状态,如何处理异常::这些问题是开发分布式程序都会面临的问题,完全可以封装成框架::MR的结构一个完整的MapReduc
分类:
其他好文 时间:
2019-08-23 00:24:34
阅读次数:
114