标签:log system 利用 集群 磁盘 block 挖掘 apr 部署
百度搜索:小强测试品牌
交流群:165380836
特点:
海量数据需要及时分析和处理。
海量数据需要深入分析和挖掘。
数据需要长期保存
问题:
磁盘IO成为一种瓶颈,而非CPU资源。
网络带宽是一种稀缺资源
硬件故障成为影响稳定的一大因素
奇虎360:Hadoop存储软件管家中软件,使用CDN技术将用户请求引到最近的Hadoop集群并进行下载
京东、百度:存储、分析日志、数据挖掘和机器学习(主要是推荐系统)
广告类公司:存储日志,通过协调过滤算法为客户推荐广告
Yahoo:垃圾邮件过滤
华为:云计算平台
Facebook:日志存储,实时分析
某公安部项目:网民QQ聊天记录与关联人调查系统,使用Hbase实现
某学校:学生上网与社会行为分析,使用hadoop
淘宝、阿里:国内使用Hadoop最深入的公司,整个Taobao和阿里都是数据驱动的
作者:Doug Cutting(Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。)
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
⒊高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
⒋高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5.低成本。与一体机、商用数据仓库等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
Hbase
Nosql数据库,Key-Value存储
最大化利用内存
HDFS
hadoop distribute file system分布式文件系统
最大化利用磁盘
MapReduce
编程模型,主要用来做数据的分析
最大化利用CPU
http://xqtesting.blog.51cto.com/4626073/1349097
标签:log system 利用 集群 磁盘 block 挖掘 apr 部署
原文地址:http://www.cnblogs.com/xqtesting/p/7081718.html