标签:http 大数 details hbase nbsp ado 处理 重要 速度
面试现在这家公司的时候,领导说有意让我接触大数据这块的项目,当时可把我高兴的。虽然来这快两年了也没接触大数据,词倒是听了几个。hadoop念着挺顺口,到底是个什么东西呢。搜索了一波,总结如下。
hadoop是什么?
Hadoop就是一个分布式计算的解决方案.
能看懂吗。看不懂的继续往下看看
hadoop能做什么?
如果是1G , 1T 甚至 1PB 的数据需要找出相同的关键词,通常的方式需要耗时几天,有了hadoop以后可以缩短为几个小时。原理看起来很简单,利用分布式计算。Hadoop 要做的事, 首先把 1PB的数据文件导入到 HDFS中, 然后编程人员定义好 map和reduce, 也就是把文件的行定义为key,每行的内容定义为value , 然后进行正则匹配,匹配成功则把结果 通过reduce聚合起来返回.Hadoop 就会把这个程序分布到N 个结点去并行的操作。
这就是云计算。如果不懂还有更简单的例子
比如 1亿个 1 相加 得出计算结果, 我们很轻易知道结果是 1亿.但是计算机不知道,那么单台计算机处理的方式做一亿次的循环,每次结果+1。
那么分布式的处理方式则变成 我用 1万台 计算机,每个计算机只需要计算 1万个 1 相加 ,然后再有一台计算机把 1万台计算机得到的结果再相加
从而得到最后的结果.
理论上讲, 计算速度就提高了 1万倍. 当然上面可能是一个不恰当的例子.但所谓分布式,大数据,云计算 大抵也就是这么回事了.
hadoop擅长日志分析,facebook、淘宝搜索中的 自定义筛选都使用的Hive。不仅如此,Twitter、Yahoo也是用到Pig技术。
PS:
Hive是Hadoop生态圈中及其重要的一个组件。Hadoop生态的数据是存储在HDFS中,而Hive能对其中的数据进行分析和管理。用户通过命令行或JDBC可使用Hive进行增删改查等数据库操作。
想更加了解hadoop的朋友可以多了解Hive、Pig、Hbase,这篇文章可以看下,相信会有很大帮助 Hadoop的Hive、Pig、Hbase
此文摘自:
标签:http 大数 details hbase nbsp ado 处理 重要 速度
原文地址:https://www.cnblogs.com/xiaoxiaoqiao/p/10287984.html