1管理服务器(master-server):负责各个数据存储服务器的管理,文件读写调度,文件空间回收以及恢复.多节点拷贝2元数据日志服务器(changelog-server):负责备份master服务器的变化,(一般情况下可以和管理服务器放在一起)文件类型为changelog_ml.*.mfs,以便于在masterserver出问..
分类:
其他好文 时间:
2014-07-29 15:49:34
阅读次数:
352
一、linux主要的文件系统类型①ext(2/3/4)xfsffsufsjfsvfatntfs②交换文件系统swap③网络文件系统nfssmbfs④分布式文件系统ceph⑤光盘文件系统isso9660linux最传统的文件系统是使用的EXT,所以要了解linux的文件系统,首先从ext开始。ext有ext2、ext3、ext4等ext2不支持日志功..
分类:
系统相关 时间:
2014-07-28 16:47:14
阅读次数:
326
(一) 概述FastDFS是一个开源的分布式文件系统,她对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站、视频网站等等。FastDFS服务端有两个角色:跟踪器(tracker)和存储节点(st...
分类:
其他好文 时间:
2014-07-25 16:40:31
阅读次数:
532
Hadoop MapReduce思维模式转变的催化剂是大量新技术的诞生,它们能够处理大数据分析所带来的3个V的挑战。扎根于开源社区,Hadoop已经是目前大数据平台中应用率最高的技术,特别是针对诸如文本、社交媒体订阅以及视频等非结构化数据。除分布式文件系统之外,伴随Hadoop一同出现的还有进行大数...
分类:
其他好文 时间:
2014-07-24 17:00:47
阅读次数:
263
《大 数据技术丛书:Hadoop应用开发技术详解》共12章。第1~2章详细地介绍了Hadoop的生态系统、关键技术以及安装和配置;第3章是 MapReduce的使用入门,让读者了解整个开发过程;第4~5章详细讲解了分布式文件系统HDFS和Hadoop的文件I/O;第6章分析了 MapReduce的工...
分类:
其他好文 时间:
2014-07-24 11:25:42
阅读次数:
337
Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive的数据管理。
分类:
其他好文 时间:
2014-07-22 22:54:13
阅读次数:
243
TFS(TaobaoFileSystem)TFS是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,主要针对海量的非结构化数据,它构筑在普通的Linux机器集群上,可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储,通常文件大小不超过1M,满足了淘宝对小文件存..
分类:
其他好文 时间:
2014-07-21 22:17:17
阅读次数:
195
最近几年日志分析这方面的人才需求越来越多,主要伴随数据挖掘的快速发展而迅速增长的。碰巧又在工作中又接触到一些日志记录方面的工作,就顺便了解一下日志系统的整个流程。下面这篇文章转自百度同学的一篇文章,针对大规模日志分析,联系到hadoop,hive的解决方案,阐述的比较全面。
另外就是阿里已经开发出类似的系统odps—通过sql语言进行数据的分析处理,详情见:http://102.alibab...
分类:
其他好文 时间:
2014-07-17 20:15:30
阅读次数:
301