Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成,来展现大数据应用的一个平台,其核心引擎就是Spark,其计算基础是弹性分布式数据集,也就是RDD。通过Spark生态圈,AMPLab运用大数据、云计算、通信等各种资源,以及各种灵活的技术方案,对海量不透明的数...
分类:
其他好文 时间:
2014-06-11 06:59:31
阅读次数:
288
Sql server 大数据量插入速度慢或丢失数据解决办法...
分类:
数据库 时间:
2014-06-10 13:58:17
阅读次数:
286
http://blog.csdn.net/lanyuzhen/article/details/7547476--大批量导出orders表:insertDBCC
DROPCLEANBUFFERSDBCC FREEPROCCACHEgoSET NOCOUNT ONBEGIN TRANSACTIONINS...
分类:
数据库 时间:
2014-06-10 12:59:43
阅读次数:
269
select*from(selectrownumr,a.*from(select*fromtable_nameorderbyndatetimedesc)awhererownum(currentPage-1)*pageSize
分类:
数据库 时间:
2014-06-09 22:55:20
阅读次数:
247
Map-reduce是一种优雅的数据处理方式,本文通过三个例子介绍如何用python在linux的管道进行map-reduce编程,本文写的所有map-reduce程序都可以原封不动的放在Hadoop下运行,很容易在大数据集上扩展。
分类:
其他好文 时间:
2014-06-09 19:11:44
阅读次数:
253
百亿数量级的大数据项目,软硬件总体预算只有30万左右,需求是进行复杂分析查询,性能要求多数分析请求达到秒级响应。
遇到这样的项目需求,预算不多的情况,似乎只能考虑基于Hadoop来实施。
理论上Hadoop撑住百亿数量级没问题,但想要秒级响应各种查询分析就不行了。我们先大概分析一下Hadoop的优缺...
分类:
其他好文 时间:
2014-06-09 14:32:39
阅读次数:
509
在做ACM 1002题时,整理得到。#include#include#define MAX
1000void zero(char *s,int len){ int i; for(i=0;i20) ; for(i=0;iblen?alen:blen;
for(j=0;j=0)&&(j>=0);j--....
分类:
编程语言 时间:
2014-06-09 14:10:01
阅读次数:
328
前言为啥写这篇文章?因为我现在做的这套实时计算系统在公司里很难玩下去了。去年年初来到ctrip,主要就是做两个实时应用,一个是实时报警,功能是做出来了,但应用效果不好;一个是XXX(敏感应用,不敢写出来,以XXX代替),也是实现了功能需求,但想继续按自己的思路往下走是不可能了,我捉急的表达能力很难让...
分类:
其他好文 时间:
2014-06-09 13:02:27
阅读次数:
676
工作上经常会遇到处理大数据的问题,下面两个工具类,是在处理大数据时编写的;推荐的是使用map的方式处理两个list数据,如果遇到list相当大数据这个方法就起到了作用,当时处理了两个十万级的list,使用改方法的变种搞定。
1.txt文件、list集合比较工具
package com.hudong.util.other;
import java.util.Collection;
import...
分类:
其他好文 时间:
2014-06-08 18:14:05
阅读次数:
326
在系统日常生产过程中,如何从Oracle数据库同步一些配置表到GP库个问题。
先来说说之前使用的方式:
0. 使用第3方工具从Oracle导出纯文本格式,存放在本地;
1. 使用GP外部表加载入库
这种方式优点是对于需要同步大数据量的表的时候性能非常高;缺点是稍显麻烦,最主要的是非实时的,存在着任务调度周期和导出导入时间周期。
对此我的解决办法是简化整个过程并实时查询:
0. ...
分类:
数据库 时间:
2014-06-08 05:46:35
阅读次数:
251