码迷,mamicode.com
首页 > 其他好文 > 详细

大数据笔记(一)——Hadoop的起源与背景知识

时间:2018-02-20 20:42:01      阅读:178      评论:0      收藏:0      [点我收藏+]

标签:info   论文   googl   全世界   常见   并且   div   red   技术   

 

一.大数据的5个特征(IBM提出):

  Volume(大量)

  Velocity(高速)

  Variety(多样)

  Value(价值)

  Varacity(真实性)

二.OLTP与OLAP

 1.OLTP:联机事务处理过程,也称面向交易的处理过程,是对用户操作快速响应的方式之一。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易:

        开启事务——>从转出账号中扣钱——>往转入账号中加钱——>提交事务

 2.OLAP:联机分析处理过程,是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。例如商品推荐:

        抽取(读取)历史订单——>分析历史订单,找到最受欢迎的商品——>展示结果

 3.OLTP和OLAP的区别:

  OLTP OLAP
用户 操作人员 决策人员,高级管理人员
功能 日常操作处理 分析决策
DB设计 面向应用 面向主题
数据 当前的,最新的细节的,二维的分立的 历史的,聚集的,多位的,集成的,统一的
存取 读/写数十条记录 读上百万条记录
工作单位 简单的事务 复杂的事务
DB大小 100MB-GB 100GB-TB

三.数据仓库

  为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。

  技术分享图片

四.Google的基本思想

  Hadoop的思想来源:Google

 

      1.Google的低成本之道

  • 不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路)
  • 大量使用普通的pc服务器,提供有冗余的集群服务
  • 全世界多个数据中心
  • 运营商向Google倒付费

  技术分享图片

 

      2.Google的三篇论文(Hadoop的思想来源)

  • GFS(Google File System:Google的文件系统)

  技术分享图片

  • 倒排索引

  把文件ID对应到关键词的映射转换为关键词到文件ID的映射,每个关键词都对应着一系列的文件,这些文件中都出现这个关键词。

  技术分享图片

  • Page Rank(排名先后)
  • BigTable(大表):Google设计的分布式数据存储系统,用来处理海量数据的一种非关系型数据库

  常见的NoSQL数据库(Key-value值):

  • HBase:基于HDFS,面向列的:region
  • Redis:基于内存、支持持久化:rdb和aof
  • MongoDB:面向文档,Json型

 

    

大数据笔记(一)——Hadoop的起源与背景知识

标签:info   论文   googl   全世界   常见   并且   div   red   技术   

原文地址:https://www.cnblogs.com/lingluo2017/p/8455770.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!