随着大数据在各个领域的深入应用,大数据本身存在的价值也正在凸显, 研究人员与商业用户等分析大数据,是为了洞察客户的真正需求。 数据有价值,公司离不开数据,但是数据究竟有多值钱呢?分析大数据并从中获取价值的成本到底有需要多少呢? 在过去,技术专家向高级管理层提供的是历史数据,以便他们能够确定市...
分类:
其他好文 时间:
2014-08-13 18:00:46
阅读次数:
291
我们在上一篇文章《HBase复制》中讲述了如何建立主/从集群,实现数据的实时备份。但是,HBase复制只对设置好复制以后的数据生效,也即,配置好复制之后插入HBase主集群的数据才能同步复制到HBase从集群中,而对之前的历史数据,采用HBase复制这种办法是无能为力的。本文介绍如何使用HBase的导入导出功能来实现历史数据的备份。
1)将HBase表数据导出到hdfs的一个指定目录中,具体命令...
分类:
其他好文 时间:
2014-08-11 17:47:22
阅读次数:
322
本文通过Python SQLite查询树莓派CPU的温度历史数据,在前面的博文中已经介绍了树莓派CPU温度获取,SQLite操作和利用Python插入历史数据,下面再介绍如何查询数据,本文主要分为三部分,第一部分为查询所有温度记录,第二部分获得最近一小时数据,第三部分为把获得结果格式化为字典类型。...
分类:
数据库 时间:
2014-08-05 00:50:58
阅读次数:
642
最近在线上往hbase导数据,因为hbase写入能力比较强,没有太在意写的问题。让业务方进行历史数据的导入操作,中间发现一个问题,写入速度太快,并且业务数据集中到其中一个region,这个region无法split掉,处于不可用状态。这里描述一整个过程—— 事情的起因:业务方按照userid和...
分类:
其他好文 时间:
2014-08-04 21:10:47
阅读次数:
297
分享一个我们做的实时数据仓库的例子。
客户是地市级烟草公司,需要实时的卷烟销售数据分析,每天的数据量约10万条,集中在4个小时内发生。
我们的处理办法是:
1、维表信息每晚处理好(客户在当天定烟的过程中,是不会去维护基础档案的内容的);
2、历史事实表数据也是每晚处理好;
3、当天的定烟数据,做一个查询业务系统数据的视图,只查询当天的数据(查询一次的时间约2-3秒);
4、将历史数据和...
分类:
其他好文 时间:
2014-08-04 17:59:27
阅读次数:
194
HBase复制是一种在不同HBase部署中复制数据的方法。它可以作为一种故障恢复的方法,并提供HBase层次的高可用性。在实际应用中,例如,可以将数据从一个面向页面的集群复制到一个MapReduce集群,后者可以同时处理新数据和历史数据。然后再自动将数据传回面向页面请求的集群。
HBase复制中最基本的架构模式是“主推送”(master-push),因为每个region server都有自己的W...
分类:
其他好文 时间:
2014-07-31 13:28:06
阅读次数:
285
最近项目中遇到了存储在HDFS上的数据格式不对,是由于数据中带有\r\n的字符,程序处理的时候没有考虑到这些情况。历史数据大概有一年的时间,需要把错误的数据或者重复的数据给删除了,保留正确的数据,项目中使用Pig来进行数据处理,所以我写了一个UDF的JAVA类去过滤那些错误的数据,把错误的数据和正确...
分类:
其他好文 时间:
2014-07-18 17:33:40
阅读次数:
246
Ganglia 项目是由加州大学发起的,现在已经成为一个应用非常广泛集群监控软件。可以监视和显示集群中的节点的各种状态信息,比如如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,同时可以将历史数据以曲线方式通过php页面呈现。同时具有很好的扩展性,允许用户加入自己所要监控的状态信息。 ...
分类:
其他好文 时间:
2014-07-10 12:52:05
阅读次数:
339
中国空气质量在线监测分析平台是公益性质的软件平台,提供PM2.5及天气数据的实时查询和历史数据可视化分析,统计挖掘,目前收录了190个城市的PM2.5及天气信息数据,主要包括PM2.5实时查询、历史曲线查询、PM2.5时段统计分析、AQI历年数据分析、PM2.5中国城市排名、PM2.5中国城市分布图、PM2.5中国省份分布图、卫星云图查询、PM2.5城市比较、PM2.5统计排名、PM2.5与天气关联挖掘、PM2.5与经济关联挖掘等功能。...
分类:
其他好文 时间:
2014-07-08 18:30:23
阅读次数:
944
一。说明:
OLTP中有些表数据量大,而且会对历史数据进行迁移至OLAP中做数据挖掘。对这种历史数据迁移的操作,较好的办法是该表采用分区表。比如按时间分区后,可以对分区进行迁移。
通过分区交换和表空间传输会很容易完成,而且性能上影响很小。
关于分区表更多内容:http://blog.csdn.net/tanqingru/article/category/1397435
关于表空间传...
分类:
其他好文 时间:
2014-06-24 17:21:12
阅读次数:
260