码迷,mamicode.com
首页 > 其他好文 > 详细

Hadoop学习系列(2.Hadoop框架介绍与搜索技术体系介绍)

时间:2018-01-29 11:41:47      阅读:89      评论:0      收藏:0      [点我收藏+]

标签:style   操作系统   联网   20px   apache   class   官网   大数   google   

第一天

2.Hadoop框架介绍与搜索技术体系介绍

1.大数据典型特性与分布式开发难点
2.Hadoop框架介绍与搜索技术体系介绍
3.Hadoop版本与特性介绍
4.Hadoop核心模块之HDFS分布式文件系统架构介绍
5.Hadoop核心模块之Yarn操作系统架构介绍
6.Linux安全禁用设置与JDK安装讲解
7.Hadoop伪分布式环境部署HDFS部分
8.Hadoop伪分布式环境部署Yarn和MR部分
9.Hadoop环境使用常见的错误集合
10.Hadoop环境常规设置与辅助功能讲解(-)
11.Hadoop环境常规设置与辅助功能讲解(二)
12.Windows环境下部署Eclipse插件注意事项

2.Hadoop框架介绍与搜索技术体系介绍

1.hadoop介绍

       -》官网:http://hadoop.apache.org

   -》hadoop商业三大发行版

      -》Apache         -》apache

      -》cloudera       -》CDH

      -》hostonwork  -》HDP

    -》分布式

       -》爬虫

       -》存储(加硬盘,但是单台机器是有限的)&处理分析

       -》快速查询

       -》分开计算,结果合并

       -》google-》Mapreduce论文

                        -》map 

                        -》reduce

       -》HDFS   文件系统和数据库是不一样的

       -》HBase 

    -》搜索引擎的技术体系

         -》数据获取 

            -》(外网,互联网抓取数据)

            -》数据库

         -》数据存储-》HDFS&Hbase

               -》yarn操作系统

         -》数据计算

               -》sql实时查询(消息队列,监控系统)

               -》辅助型框架,比如zookeeper

         -》生成索引,搜索的索引(商品推荐和自己平时搜索的信息有关) 

         -》返回个前端用户

    -》离线系统-》hadoop生态圈

         -》数据获取

         -》(外网,互联网抓取数据)

         -》云存储

             -》全量或者增量导入(同步到hbase当中,sql语句当中)

         -》复杂离线处理的过程(job运行,业务的逻辑,表的join,字段的合并)

             -》mapreduce(实现全量或者增量数据的更新)

             -》其他的框架实现实时数据的更新

            这样我整个的数据变化就可以实现秒级的速度   更新到搜索引擎




Hadoop学习系列(2.Hadoop框架介绍与搜索技术体系介绍)

标签:style   操作系统   联网   20px   apache   class   官网   大数   google   

原文地址:http://blog.51cto.com/10484979/2066288

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!