码迷,mamicode.com
首页 > 其他好文 > 详细

Hadoop学习笔记_1_Hadoop源起与体系概述

时间:2014-08-01 19:47:02      阅读:264      评论:0      收藏:0      [点我收藏+]

标签:hadoop   服务器   数据中心   搜索引擎   google   

Hadoop源起与体系概述

 

[一个典型的实验环境]

1.服务器: ESXi,可以在上面部署10多台虚拟机,能同时启动4;

ESXi可以直接安装在裸机上面,而不用首先安装一个WinServerLinux(StandAlone安装)

ESXi在本质上就是一个高度定制化的Linux,其内核与周边环境都被VMWare公司修改了。

2.PC:要求Linux环境或Windows+CygwinLinux可以是StandAlone或者使用虚拟机

3.SSHWindows下可以使用SecureCRTputtyssh client程序,作用是用来远程连接Linux服务器,Linux下可以直接使用ssh命令

4.Vmware client:用于管理ESXi

5.Hadoop版本:由于Hadoop不同版本之间差异很大,不同版本之间的继承性也不是很高,在学习的初期选择一个跟市面上的大部分教材相同的Hadoop版本,是比较推荐的;在学成之后,Hadoop已经非常熟悉了,再用最新版本是比较好的.

 

Hadoop的思想之源:Google

Google搜索引擎,Gmail,安卓,Google MapsGoogle earthGoogle学术,Google翻译,Google+Appspot,下一步Google what??

 bubuko.com,布布扣bubuko.com,布布扣


Google的低成本之道

bubuko.com,布布扣

1.不使用超级计算机,不使用存储(如阿里巴巴的去IOE之路)

2.大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务

3. 全世界多个数据中心,有些附带发电厂

4.运营商向Google倒付费O(∩_∩)O~

bubuko.com,布布扣

集装箱数据中心:位于 Mountain View, Calif 总部的数据中心

总功率为10000千瓦,拥有45个集装箱,每个集装箱都由Google自行标准化设计,每个集装箱中有1160台服务器,该数据中心的能效比为1.25( PUE 为 表示数据中心没有能源损耗,而根据2006年的统计,一般公司数据中心的能效比为 2.0 或更高。Google 的 1.16 已经低于美国能源部2011年的1.2 的目标)

 

 

Google面对的数据和计算难题

1.大量的网页怎么存储?

2.搜索算法

3.Page-Rank计算问题

 

 

倒排索引

bubuko.com,布布扣



Page Rank

Page Rank是Google最核心的算法,用于给每个网页价值评分,是Google“在垃圾中找黄金的关键算法,这个算法成就了今天的Google,因此,Google从未将其细节披露过,而是将其工作机制发表成了几篇论文,介绍Page Rank是怎样计算的.

PageRank的算法思想:一个网页的价值等于指向他的链接数,但是不同的链接拥有不同的权值,比如国务院的网站与咱们的个人博客网站的权值就不一样... 

bubuko.com,布布扣

虽然数学上已经证明是可计算的,但是如此大的计算量是没有办法用计算机实现的.


Map-reduce思想:计算PR

bubuko.com,布布扣bubuko.com,布布扣bubuko.com,布布扣

总结:Google带给我们的关键技术和思想

1.GFS(Hadoop:HDFS)

2.Map-Reduce(Hadoop:Map-Reduce)

3.Bigtable(Hadoop:HBase子项目)

Hadoop学习笔记_1_Hadoop源起与体系概述,布布扣,bubuko.com

Hadoop学习笔记_1_Hadoop源起与体系概述

标签:hadoop   服务器   数据中心   搜索引擎   google   

原文地址:http://blog.csdn.net/zjf280441589/article/details/38340001

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!