大数据时代的遨游

时间：2017-06-26 19:07:21 阅读：158 评论：0 收藏：0 [点我收藏+]

标签：log system 利用集群磁盘 block 挖掘 apr 部署

百度搜索：小强测试品牌

交流群：165380836

Hadoop来临

特点：

海量数据需要及时分析和处理。

海量数据需要深入分析和挖掘。

数据需要长期保存

问题：

磁盘IO成为一种瓶颈,而非CPU资源。

网络带宽是一种稀缺资源

硬件故障成为影响稳定的一大因素

Hadoop在国内的应用

奇虎360：Hadoop存储软件管家中软件，使用CDN技术将用户请求引到最近的Hadoop集群并进行下载

京东、百度：存储、分析日志、数据挖掘和机器学习（主要是推荐系统）

广告类公司：存储日志，通过协调过滤算法为客户推荐广告

Yahoo：垃圾邮件过滤

华为：云计算平台

Facebook：日志存储，实时分析

某公安部项目：网民QQ聊天记录与关联人调查系统，使用Hbase实现

某学校：学生上网与社会行为分析，使用hadoop

淘宝、阿里：国内使用Hadoop最深入的公司，整个Taobao和阿里都是数据驱动的

Hadoop介绍

作者：Doug Cutting（Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短，容易发音和拼写，没有太多的意义，并且不会被用于别处。）

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

Hadoop特点

⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

⒊高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

⒋高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

5.低成本。与一体机、商用数据仓库等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

Hadoop生态结构

Hbase

Nosql数据库，Key-Value存储

最大化利用内存

HDFS

hadoop distribute file system分布式文件系统

最大化利用磁盘

MapReduce

编程模型，主要用来做数据的分析

最大化利用CPU

Hadoop测试常见问题和测试方法

http://xqtesting.blog.51cto.com/4626073/1349097

大数据时代的遨游

标签：log system 利用集群磁盘 block 挖掘 apr 部署

原文地址：http://www.cnblogs.com/xqtesting/p/7081718.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行