码迷,mamicode.com
首页 >  
搜索关键字:大数据 hadoop hdfs    ( 26557个结果
Rs2008内存管理策略
Rs2008 在内存管理方面已经有了很大的改变。主要增加了文件缓存,允许把内存数据卸载到文件缓存中。而Rs2005 都是把数据放到内存中。对于大数据量的报表而言,很容易出现OutOfMemory 错误。在实际应用中,发现Rs2008 也经常出现 OutOfMemory 错误。主要有以下几个原因:1 ...
分类:其他好文   时间:2014-05-10 08:14:31    阅读次数:317
几种数据库的大数据批量插入
IProvider里有一个用于实现批量插入的插件服务接口IBatcherProvider,此接口在前一篇文章中已经提到过了。/// /// 提供数据批量处理的方法。 /// public interface IBatcherProvider : IProviderService...
分类:数据库   时间:2014-05-10 06:28:39    阅读次数:518
2014年书单
计划:1. 番茄工作法图解:简单易行的时间管理方法 (完成)2. 大数据:互联网大规模数据挖掘与分布式处理3. 量化:大数据时代的企业管理5. 黑客与画家:来自计算机时代的高见 6. 倾听的力量:如何掌握沟通中的关键商业技巧 7. 失控 凯文·凯利8. 罗辑思维 罗振宇9. 说服力让你...
分类:其他好文   时间:2014-05-10 00:36:52    阅读次数:289
Linux下SSH免密码登录(转)
搭建hadoop集群的时候一定会用到的就是SSH免密码登录[hadoop@hadoop1 ~]$ ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/home/ha...
分类:系统相关   时间:2014-05-09 23:10:11    阅读次数:471
数据挖掘之定义
大数据是2012的时髦词汇,正受到越来越多人的关注和谈论。大数据之所以受到人们的关注和谈论,是因为隐藏在大数据后面超千亿美元的市场机会。   大数据时代,数据挖掘是最关键的工作。以下内容供个人学习用,感兴趣的朋友可以看一下。   智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并...
分类:其他好文   时间:2014-05-09 22:46:58    阅读次数:338
在Form域中Post大于100K的数据
在Form域中Post大于100K的数据 当表单发送的数据量很大时,就会报错。查阅MSDN了解到,原因是微软对用Request.Form()可接收的最大数据有限制,IIS4中为80K字节,IIS5中为100K字节。   下面是微软提供的几个解决方法: 1、用Request.BinaryRead 代替 Request.Form方法 来解析表单数据; 2、使用文件上传方案,比如:Microso...
分类:其他好文   时间:2014-05-09 22:13:58    阅读次数:348
VMware 下扩展linux硬盘空间
很多人在学习Nutch、Hadoop或者熟悉Linux操作系统时都会选择在VMWare上安装Linux虚拟机,而又往往不想分配给Linux虚拟机足够大的硬盘空间,这就容易导致使用Linux一段时间后,发现虚拟机上的硬盘空间不够了,此时怎么解决?有的人直接选择了重新安装Linux虚拟机,但是下一次硬盘又不够了呢,还要重新安装操作系统吗,那再下一次呢?这种方法势必会进入一个重复无聊的过程,除了增加安装...
分类:系统相关   时间:2014-05-09 21:52:40    阅读次数:526
Hive ERROR: Out of memory due to hash maps used in map-side aggregation
当hive在执行大数据量的统计查询语句时,经常会出现下面OOM错误,具体错误提示如下: Possible error: Out of memory due to hash maps used in map-side aggregation. Solution: Currently hive.map.aggr.hash.percentmemory is set to 0.5. Try set...
分类:其他好文   时间:2014-05-09 21:08:27    阅读次数:366
大数据:互联网大规模数据挖掘与分布式处理 电子书 PDF 下载 制作 定制 服务
大数据 大规模 数据挖掘 分布式处理
分类:其他好文   时间:2014-05-09 15:43:11    阅读次数:249
Hadoop-2.2.0中文文档—— MapReduce 下一代--容量调度器
目的 这份文档描述 CapacityScheduler,一个为Hadoop能允许多用户安全地共享一个大集群的插件式调度器,如他们的应用能适时被分配限制的容量。 概述 CapacityScheduler 被设计成以分享的、多用户集群运行 Hadoop 应用并最大化利用集群的机制。 传统上,每一个组织都会有它自己的私有电脑资源,在顶峰或接近顶峰状态有充足的容量来面对组织的SLA...
分类:其他好文   时间:2014-05-09 13:59:54    阅读次数:424
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!