计划:1. 番茄工作法图解:简单易行的时间管理方法 (完成)2.
大数据:互联网大规模数据挖掘与分布式处理3. 量化:大数据时代的企业管理5. 黑客与画家:来自计算机时代的高见 6. 倾听的力量:如何掌握沟通中的关键商业技巧
7. 失控 凯文·凯利8. 罗辑思维 罗振宇9. 说服力让你...
分类:
其他好文 时间:
2014-05-10 00:36:52
阅读次数:
289
搭建hadoop集群的时候一定会用到的就是SSH免密码登录[hadoop@hadoop1 ~]$
ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to
save the key (/home/ha...
分类:
系统相关 时间:
2014-05-09 23:10:11
阅读次数:
471
大数据是2012的时髦词汇,正受到越来越多人的关注和谈论。大数据之所以受到人们的关注和谈论,是因为隐藏在大数据后面超千亿美元的市场机会。
大数据时代,数据挖掘是最关键的工作。以下内容供个人学习用,感兴趣的朋友可以看一下。
智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并...
分类:
其他好文 时间:
2014-05-09 22:46:58
阅读次数:
338
在Form域中Post大于100K的数据
当表单发送的数据量很大时,就会报错。查阅MSDN了解到,原因是微软对用Request.Form()可接收的最大数据有限制,IIS4中为80K字节,IIS5中为100K字节。
下面是微软提供的几个解决方法:
1、用Request.BinaryRead 代替 Request.Form方法 来解析表单数据;
2、使用文件上传方案,比如:Microso...
分类:
其他好文 时间:
2014-05-09 22:13:58
阅读次数:
348
当hive在执行大数据量的统计查询语句时,经常会出现下面OOM错误,具体错误提示如下:
Possible error: Out of memory due to hash maps used in map-side aggregation.
Solution: Currently hive.map.aggr.hash.percentmemory is set to 0.5. Try set...
分类:
其他好文 时间:
2014-05-09 21:08:27
阅读次数:
366
通过Mahout构建推荐系统时,如果我们需要加入某些过滤规则(比如:item的创建时间在一年以内),则需要用到IDRescorer接口,该接口源码如下:
package org.apache.mahout.cf.taste.recommender;
/**
*
* A {@link Rescorer} which operates on {@code long...
分类:
其他好文 时间:
2014-05-09 14:09:08
阅读次数:
369
背景&目标:
1、sport.tar 是体育类的文章,一共有10个类别;
用这些原始材料构造一个体育类的文本分类器,并测试对比bayes和cbayes的效果;
记录分类器的构造过程和测试结果。
2、user-sport.tar 是用户浏览的文章,每个文件夹对应一个用户;
利用上题构造的文本分类器,计算每个用户浏览各类文章的占比;
记录计算过程和结果。...
分类:
其他好文 时间:
2014-05-09 14:03:40
阅读次数:
408
目的
这份文档描述 CapacityScheduler,一个为Hadoop能允许多用户安全地共享一个大集群的插件式调度器,如他们的应用能适时被分配限制的容量。
概述
CapacityScheduler 被设计成以分享的、多用户集群运行 Hadoop 应用并最大化利用集群的机制。
传统上,每一个组织都会有它自己的私有电脑资源,在顶峰或接近顶峰状态有充足的容量来面对组织的SLA...
分类:
其他好文 时间:
2014-05-09 13:59:54
阅读次数:
424