搜索关键字：mahout hadoop canopy 聚类大数据，搜索到26726个结果！码迷,mamicode.com！

2014年书单

计划：1. 番茄工作法图解：简单易行的时间管理方法 (完成)2. 大数据：互联网大规模数据挖掘与分布式处理3. 量化：大数据时代的企业管理5. 黑客与画家：来自计算机时代的高见 6. 倾听的力量：如何掌握沟通中的关键商业技巧 7. 失控凯文·凯利8. 罗辑思维罗振宇9. 说服力让你...

分类：其他好文时间：2014-05-10 00:36:52 阅读次数：289

Linux下SSH免密码登录(转)

搭建hadoop集群的时候一定会用到的就是SSH免密码登录[hadoop@hadoop1 ~]$ ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/home/ha...

分类：系统相关时间：2014-05-09 23:10:11 阅读次数：471

数据挖掘之定义

大数据是2012的时髦词汇，正受到越来越多人的关注和谈论。大数据之所以受到人们的关注和谈论，是因为隐藏在大数据后面超千亿美元的市场机会。　　大数据时代，数据挖掘是最关键的工作。以下内容供个人学习用，感兴趣的朋友可以看一下。　　智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现，是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并...

分类：其他好文时间：2014-05-09 22:46:58 阅读次数：338

在Form域中Post大于100K的数据

在Form域中Post大于100K的数据当表单发送的数据量很大时，就会报错。查阅MSDN了解到，原因是微软对用Request.Form()可接收的最大数据有限制，IIS4中为80K字节，IIS5中为100K字节。　　下面是微软提供的几个解决方法: 1、用Request.BinaryRead 代替 Request.Form方法来解析表单数据； 2、使用文件上传方案，比如：Microso...

分类：其他好文时间：2014-05-09 22:13:58 阅读次数：348

Hive ERROR: Out of memory due to hash maps used in map-side aggregation

当hive在执行大数据量的统计查询语句时，经常会出现下面OOM错误，具体错误提示如下： Possible error: Out of memory due to hash maps used in map-side aggregation. Solution: Currently hive.map.aggr.hash.percentmemory is set to 0.5. Try set...

分类：其他好文时间：2014-05-09 21:08:27 阅读次数：366

大数据：互联网大规模数据挖掘与分布式处理电子书 PDF 下载制作定制服务

大数据大规模数据挖掘分布式处理

分类：其他好文时间：2014-05-09 15:43:11 阅读次数：249

数据挖掘：概念与技术（原书第3版）电子书 PDF 下载制作定制服务

Hadoop大数据处理

分类：其他好文时间：2014-05-09 15:42:46 阅读次数：315

【甘道夫】通过Mahout构建推荐系统--通过IDRescorer扩展评分规则

通过Mahout构建推荐系统时，如果我们需要加入某些过滤规则（比如：item的创建时间在一年以内），则需要用到IDRescorer接口，该接口源码如下： package org.apache.mahout.cf.taste.recommender; /** * * A {@link Rescorer} which operates on {@code long...

分类：其他好文时间：2014-05-09 14:09:08 阅读次数：369

【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解

背景&目标： 1、sport.tar 是体育类的文章，一共有10个类别；用这些原始材料构造一个体育类的文本分类器，并测试对比bayes和cbayes的效果；记录分类器的构造过程和测试结果。 2、user-sport.tar 是用户浏览的文章，每个文件夹对应一个用户；利用上题构造的文本分类器，计算每个用户浏览各类文章的占比；记录计算过程和结果。...

分类：其他好文时间：2014-05-09 14:03:40 阅读次数：408

Hadoop-2.2.0中文文档—— MapReduce 下一代--容量调度器

目的这份文档描述 CapacityScheduler,一个为Hadoop能允许多用户安全地共享一个大集群的插件式调度器，如他们的应用能适时被分配限制的容量。概述 CapacityScheduler 被设计成以分享的、多用户集群运行 Hadoop 应用并最大化利用集群的机制。传统上，每一个组织都会有它自己的私有电脑资源，在顶峰或接近顶峰状态有充足的容量来面对组织的SLA...

分类：其他好文时间：2014-05-09 13:59:54 阅读次数：424

共26726条上一页 1 ... 2656 2657 2658 2659 2660 ... 2673 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)