介绍 我们有一些历史数据: record id\attributes 根据这些数据,我们想回答: If we got a record 4, that is 'a1,b1,c2', is record4 Good or Bad? 解决方法 我们要分别考量record4的三个属性的先验(Priori) ...
分类:
其他好文 时间:
2017-05-07 23:16:58
阅读次数:
255
hive利用hdfs存储数据文件,利用MapReduce查询数据。 数据库:支持在线联机业务(实时、事务控制) 数据仓库:存储历史数据,面向主题的。主要用于离线数据分析的。 ...
分类:
其他好文 时间:
2017-05-07 23:06:16
阅读次数:
166
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面 ...
分类:
其他好文 时间:
2017-05-07 11:37:23
阅读次数:
191
背景:线上的一个历史数据库,业务方反馈经常遇到一个范围查询就导致CPU迅速飙升的情况。拿到他们提供的SQL后,SQL类似下面这种:select*from`order_his`where`xxxx`=‘222‘AND`XXXX`<>1ANDorder_time>‘2016-11-0100:00:00‘ANDorder_time<‘2017-06-0100:00:00‘\Gexp..
分类:
数据库 时间:
2017-04-21 10:13:23
阅读次数:
187
原因: 解决方法: 用redis生成主键 全部代码: 调用方法 如果表中存在历史数据,则需要开个定时器将id初始值设置大一点或者直接在数据库改掉redis的初始值然后重启服务 ...
分类:
其他好文 时间:
2017-04-18 16:05:16
阅读次数:
242
HBase复制是一种在不同HBase部署中复制数据的方法。它能够作为一种故障恢复的方法,并提供HBase层次的高可用性。在实际应用中,比如。能够将数据从一个面向页面的集群拷贝到一个MapReduce集群,后者能够同一时候处理新数据和历史数据。然后再自己主动将数据传回面向页面请求的集群。 HBase复 ...
分类:
其他好文 时间:
2017-04-17 18:57:13
阅读次数:
173
关于 Docker 容器的监控,google cAdvisor 是个很好的工具,但是它默认只显示实时数据,不储存历史数据。为了存储和显示历史数据、自定义展示图,可以把将cAdvisor与InfluxDB、Grafana 集成起来。 需要的镜像: tutum/influxdb google/cadvi ...
分类:
数据库 时间:
2017-04-14 20:35:59
阅读次数:
351
由于量化策略研究需要用到尽量全的历史数据,包括:股票、外汇、期货、基金等等的分钟、小时、日历史数据,而且数据尽量全,最好能从九几年起。所以我在网上做了较多的搜查以找到可用的数据源。以下分别列出几个方案,并讨论其优缺,最后总结出一条可行的路。 Tushare 数据接口: 该接口基本是使用新浪的数据源做 ...
分类:
其他好文 时间:
2017-04-03 18:51:54
阅读次数:
260
经常需要定期对某些表删除历史数据,通常这样的表的数据又是非常巨大,为了减轻对线上环境的影响,删除时必须分成小批量来进行。 以前分享过SQLServer的版本。 下面是MySQL版本: 本文地址:http://www.cnblogs.com/ajiangg/p/6604317.html ...
分类:
数据库 时间:
2017-03-23 13:44:35
阅读次数:
237
housekeeper是zabbix清理数据库里过期的历史数据的一种机制 相关参数 HousekeepingFrequency=1 zabbix执行Housekeeping的频率,单位为hours MaxHousekeeperDelete=500 每次最多删除历史数据的行 问题分析 这个是在清理数据 ...
分类:
其他好文 时间:
2017-03-20 19:13:03
阅读次数:
1523