http://my.oschina.net/songhongxu/blog/209951一、内存溢出类型1、java.lang.OutOfMemoryError: PermGen spaceJVM管理两种类型的内存,堆和非堆。堆是给开发人员用的上面说的就是,是在JVM启动时创建;非堆是留给JVM自己...
分类:
编程语言 时间:
2015-07-14 11:17:19
阅读次数:
168
JavaWeb学习总结(三十五)——使用JDBC处理Oracle大数据一、Oracle中大数据处理 在Oracle中,LOB(Large Object,大型对象)类型的字段现在用得越来越多了。因为这种类型的字段,容量大(最多能容纳4GB的数据),且一个表中可以有多个这种类型的字段,很灵活,适用于数....
分类:
数据库 时间:
2015-07-05 18:10:49
阅读次数:
181
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master...
分类:
其他好文 时间:
2015-07-02 15:29:02
阅读次数:
149
Understanding Cubert Concepts(二):Cubert Co-Partitioned Blocks话接上文Cubert PartitionedBlocks,我们介绍了Cubert的核心Block概念之一的分区块,它是一种根据partitionKeys和cost function来对原始数据进行Redistribution和Transformation来结构化数据,这种结构化的...
分类:
其他好文 时间:
2015-07-01 12:18:05
阅读次数:
140
听人说做文本分类时处理100G的文本文件,居然不用大数据,处理方法就是用shell的split去分割成若干小文件。
split命令
NAME
split - split a file into pieces
SYNOPSIS
split [OPTION] [INPUT [PREFIX]]
DESCRIPTION
Output fixed-...
分类:
系统相关 时间:
2015-06-17 21:33:31
阅读次数:
146
该篇是近一周计算机类精品书籍专题,为方便大家在繁忙的工作学习中能够为挑选要买的书籍而节省时间提供便利,大家有什么需求和建议尽管反馈告知我们,我们都会在可以的范围内尽量一一满足。
一、《命令行中的数据科学》
大数据处理不一定非要写程序,小小命令行工具往往出奇制胜,高效数据分析必备。
购买地址点击打开链接
二、《C++标准库(第2版)》
最权威最畅销C++...
分类:
其他好文 时间:
2015-06-17 11:37:44
阅读次数:
134
1. 批量写入,采用事物方式,先缓存数据,再批量写入数据,极大提高了速度288条,直接inset into 耗时7秒8640条, 批量写入 耗时5-7秒[java]view plaincopytry{this.myDataBase.beginTransaction();//手动设置开始事务for.....
分类:
移动开发 时间:
2015-06-15 23:36:58
阅读次数:
231
随着互联网+时代的来临,互联网已经从Information Technology (IT)时代过度到Data Technology (DT)时代,数据量也以几何量级递增,数据整体呈现出5V特征,大体量(Volume)、多样性(Variety)、时效性(Velocity)、准确性(Veracity),大价值(Value)。大体量体现为数据量可以从TB到PB,甚至到EB规模,google资料显示,其每天搜索提供的数量达到30PB(1P=1024TB), 这些数据如果打印出来将超过5千万亿张A4纸,但是资料同时也...
分类:
其他好文 时间:
2015-06-10 21:05:35
阅读次数:
189
原文链接什么是SparkApache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。首先,...
分类:
其他好文 时间:
2015-06-09 19:39:32
阅读次数:
130
大数据处理大数据处理有哪些方案?说明:hadoop (hadoop权威指南中文第二版.pdf)spark有没有用过缓存?服务端的高速缓存有没有用过?如何解决数据并发问题?说明:使用同步机制使用临界区管理多线程的问题sql搜索时,如何过滤?设计模式什么是工厂模式?一般应用在哪些场景?什么是单例模式?....
分类:
Web程序 时间:
2015-06-05 13:56:00
阅读次数:
131