标签:严格 proc end 爬取 任务 随机 dfs 运行机制 约束
Bigdata:
结构化数据:有严格约束
半结构化数据:
非结构化数据:没有元数据
搜索引擎:搜索组件+索引组件(存放数据 由蜘蛛程序爬取而来)
2003年 Google发表第一篇论文 The Google File System 解决大量数据存储
GFS文件系统 系统阐述了采取商业计算机集群就是普通x86系类的服务器的主机集群来完成定型的或分布式的方式高效的存储海量数据 它的设计支持大规模数据密集型的分布程序运行 可以扩展到成千上万个节点 这个平台为流式数据的应用进行了优化因此特别适用存储之后读取数据并完成处理操作 不支持随机访问
2004年 Google发表了另一篇论文 MapReduce:Simplified Data Processing On Large Cluster 系统阐述了 MapReduce编程模型及其运行机制
MapReduce是一个能够将某个处理任务给分割成任务单元而后并行运行于集群中的各节点上,并且收集各节点的运行结果做二次处理 二次并行运行直至得到最终结果为止的一个TB 甚至PB集数据并行处理分析框架。程序=代码+数据
2006年:BigTable: A Distributed storage System for structure Data 用于存储结构化数据的分布式存储系统叫BigTable
Hadoop就是三个论文的山寨版,用Java语言开发
The Google File System <==> HDFS
MapReduce <==> MapReduce
A Distributed storage System for structure Data <==> HBase
Hadoop=HDFS+ MapReduce
HBase
Nutch 网络爬虫程序 开源搜索引擎的实现
标签:严格 proc end 爬取 任务 随机 dfs 运行机制 约束
原文地址:https://www.cnblogs.com/azuressy/p/11369854.html