码迷,mamicode.com
首页 >  
搜索关键字:大数据集    ( 238个结果
JDBC连接mysql,查大数据集报:java.lang.OutOfMemoryError: Java heap space
问题描述: 在项目中需要连接mysql,查询上千上万的记录,每个字段都挺大。结果在Eclipse中报如下错误:  java.lang.OutOfMemoryError: Java heap space 原因分析: mysql会将查询到的记录全部发送到java端保存,而JVM中如果98%的时间是用于GC,且可用的Heap size 不足2%的时候将抛出此异常信息。JVM堆的设置是...
分类:数据库   时间:2015-01-05 16:47:14    阅读次数:180
王家林最新最新介绍
王家林老师(联系邮箱18610086859@126.com 电话:18610086859 QQ:1740415547 微信号:18610086859)Spark亚太研究院院长和首席专家,中国目前唯一的移动互联网和云计算大数据集大成者。Spark亚太研究院院长和首席专家,移动互联网、云计算和大数据技术...
分类:其他好文   时间:2014-12-24 22:43:50    阅读次数:192
Hadoop集群(第9期)_MapReduce初级案例
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。.....
分类:其他好文   时间:2014-12-23 22:26:38    阅读次数:169
王家林最新介绍
王家林老师(联系邮箱18610086859@126.com 电话:18610086859 QQ:1740415547 微信号:18610086859)Spark亚太研究院院长和首席专家,中国目前唯一的移动互联网和云计算大数据集大成者。Spark亚太研究院院长和首席专家,移动互联网、云计算和大数据技术...
分类:其他好文   时间:2014-12-20 02:03:01    阅读次数:353
Hadoop2 伪分布式部署
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据,则MapReduce为海量的数据提供了计算。Hadoop 容易开发和运行处理大...
分类:其他好文   时间:2014-12-19 10:07:54    阅读次数:307
Hadoop实战读书笔记(8)
什么是开发数据集? 一个流行的开发策略是为生产环境中的大数据集建立一个较小的、抽样的数据子集,称为开发数据集。这个开发数据集可能只有几百兆字节。当你以单机或者伪分布式模式编写程序来处理它们时,你会发...
分类:其他好文   时间:2014-12-08 21:34:08    阅读次数:387
Hadoop实战读书笔记(5)
HDFS文件操作 你可以把一个大数据集(100TB)在HDFS中存储为单个文件,而大多数其他的文件系统无力实现这一点。虽然该文件存在多个副本分布在多台机器上来支持并行处理,你也不必考虑这些细节。 ? HDFS (Hadoo...
分类:其他好文   时间:2014-12-08 14:03:18    阅读次数:226
关联挖掘和Aprioir算法
Apriori算法优点:易编码实现缺点:在大数据集上可能较慢适用数据类型:数值型或者标称型算法过程:关联分析是一种在大规模数据集中寻找有意思的关系的任务,这里的有意思的关系有两种:频繁项集(frequent item sets)或关联规则(association rules)。支持度(support...
分类:编程语言   时间:2014-12-08 02:00:55    阅读次数:334
数学之路-分布式计算-disco(1)
Disco是一个轻量级的、开源的基于mapreduce模型计算的框架,Disco强大且易于使用,这都要归功于python,Disco分发且复制数据,可高效安排作业。Disco甚至拥有能对数以亿计的数据点进行索引以及实时查询的工具。Disco于2008年在Nokia研究中心诞生,解决了在大量数据处理方面的挑战。Disco支持大数据集的并行计算,在不可靠的计算机集群中,Disco是一个完美的分析和处理...
分类:其他好文   时间:2014-12-02 22:32:39    阅读次数:206
Hadoop2.3.0具体安装过程
前言: Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;并且它提供高吞吐量(high throughput)来訪问应用程序的数据,适合那些有着超大数据集....
分类:其他好文   时间:2014-11-11 14:00:31    阅读次数:305
238条   上一页 1 ... 20 21 22 23 24 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!