大数据是用scala语言,和java有些不同又比java强大,省去了很多繁琐的东西,scala中的的接口用trait来定义,不同于java的接口,trait中可以有抽象方法也可以有不抽象方法。scala中的方法中还可以定义方法,这在java中是从来没有的。大数据未来几年发展的重点方向,大数据战略已经...
分类:
其他好文 时间:
2015-11-12 21:45:41
阅读次数:
227
DT大数据梦工厂免费在百度 网盘分享的大数据视频:1,《Scala深入浅出实战经典》http://pan.baidu.com/s/1pJnAUr52,《Spark纯实战公益大讲坛》http://pan.baidu.com/s/1sLeVk3,《Docker公益大讲坛》http://pan.baidu...
分类:
其他好文 时间:
2015-10-19 07:02:39
阅读次数:
179
1.Bloom Filter
由一个很长的二进制向量和一系列hash函数组成
优点:可以减少IO操作,省空间
缺点:不支持删除,有误判
如果要支持删除操作: 改成计数布隆过滤器
2.SkipList(跳表)
核心思路: 由多层组成,每层都是一个有序链表,最底层包含所有元素,元素数逐层递减。每个节点包含两个指针,一个->,一个向下。
并行编程情况下可以用...
分类:
编程语言 时间:
2015-08-10 14:53:22
阅读次数:
225
HDFS配置:
客户端中的配置参数可以覆盖服务端的参数。
例如:副本数,切块大小
HDFS文件存储:
服务端存储block的实际大小,但是不适合存储小文件,小文件会占用namenode的元数据空间。
对于小文件数据的优化,可以在上传之前先合并再上传。
例如:压缩、文本文件合并
HDFS扩展:
hdfs支持rest API,与平台无关
jetty 容器
hdfs支持rest command
分布式任务...
分类:
其他好文 时间:
2015-04-11 22:38:55
阅读次数:
180
windows下配置hadoop
hadoop 安装包解压,路径不要有特殊字符
lib和bin直接解压出来的不可用,需要自己重新编译
配置环境变量:HADOOP_HOME,path中添加:bin目录
namenode
整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。
响应客户端的请求,上传文件:
client申请上传文件,n...
分类:
其他好文 时间:
2015-04-07 09:54:54
阅读次数:
144
偶遇大数据学习路线,赶上一次科技革命不容易,追求下,要有所作为!一、Hadoop入门,了解什么是Hadoop1、Hadoop产生背景2、Hadoop在大数据、云计算中的位置和关系3、国内外Hadoop应用案例介绍4、国内Hadoop的就业情况分析及课程大纲介绍5、分布式系统概述6、Hadoop生态圈...
分类:
其他好文 时间:
2015-04-06 11:25:56
阅读次数:
127
Hadoop简介:
分布式、可扩展、可靠的、分布式计算框架。
组件:
common:公共组件
hdfs:分布式文件系统
yarn:运行环境
mapreduce:mr计算模型
生态系统:
Ambari:操作界面
avro:通用的序列化机制、与语言无关
cassandra:数据库
chukwa:数据收集系统
hbase:分布式大表数据库
hive:基于sql的分析系统
matout:机器学习算法库
pi...
分类:
其他好文 时间:
2015-04-05 11:59:31
阅读次数:
234
http://www.chinahadoop.cn/page/developer什么是大数据开发师?围绕大数据系平台系统级的研发人员, 熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提...
分类:
其他好文 时间:
2014-12-14 19:54:40
阅读次数:
280
1.大数据学习方向:一是系统建设技术,二,海量数据应用。先说系统建设,现在主流的技术是HADOOP,主要基于mapreduce的分布式框架。目前可以先学习这个。但是我的观点,在分布式系统出来之前,主要是集中式架构,如DB2,oracle。为什么现在用分布式架构,那是因为现在集中式架构受限于IO性能,...
分类:
其他好文 时间:
2014-12-08 21:02:51
阅读次数:
314