搜索关键字：mahout hadoop canopy 聚类大数据，搜索到26726个结果！码迷,mamicode.com！

hadoop测试

lk@lk-virtual-machine:~$ cd hadoop-1.0.1 lk@lk-virtual-machine:~/hadoop-1.0.1$ cd bin lk@lk-virtual-machine:~/hadoop-1.0.1/bin$ ./stop_all.sh bash: ./stop_all.sh: 没有那个文件或目录 lk@lk-virtual-machine:~...

分类：其他好文时间：2014-05-10 09:58:55 阅读次数：462

Pig系统分析(6)-从Physical Plan到MR Plan再到Hadoop Job

从Physical plan到Map-Reduce Plan 注：因为我们重点关注的是Pig On Spark针对RDD的执行计划，所以Pig物理执行计划之后的后端参考意义不大，这些部分主要分析流程，忽略实现细节。入口类MRCompiler，MRCompilier按照拓扑顺序遍历物理执行计划中的节点，将其转换为MROperator，每个MROperator都代表一个map-reduce j...

分类：其他好文时间：2014-05-10 08:46:07 阅读次数：366

Hadoop集群（第9期）_MapReduce初级案例 - 虾皮 - 博客园

Hadoop集群（第9期）_MapReduce初级案例 - 虾皮 - 博客园1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1....

分类：其他好文时间：2014-05-08 20:38:16 阅读次数：669

数据挖掘-1

数据仓库技术包括数据清理、数据集成和联机分析处理（OLAP）OLAP是一种分析技术，具有汇总，合并和聚集功能，以及从不同的角度观察信息的能力。但，对于深层次的分析，如数据分类，聚类和数据随时间变化的特征，仍然需要其他分析工具。尽管市场上已有许多“数据挖掘系统”，但是并非所有的都能进行真正的数据挖...

分类：其他好文时间：2014-05-08 20:18:07 阅读次数：323

PHP文件缓存与memcached缓存相比优缺点是什么呢

如果不考虑其他任何问题，只比较速度的话，那肯定是mem快，但他们各有优缺点。文件缓存优点：1、由于现在的硬盘都非常大，所有如果是大数据的时候，放硬盘里就比较合适，比如做一个cms网站，网站里有10万篇文章，生成的文件大小总数可能就会很大。2、数据的存放较为安全，由于是硬盘存放，所以在意外掉电的情况下...

分类：Web程序时间：2014-05-08 20:03:19 阅读次数：307

Hadoop-2、Mapred初试

import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.ha...

分类：其他好文时间：2014-05-07 19:14:58 阅读次数：416

.net DataExcel通信组件使用搭建简单文件服务器

使用.net dataexcel通信搭建一个简单的文件服务器。通信简单介绍 1，通信使用TCP协议。 2，采用session机制，控制简单通信安全与连接限制防攻击。 3，采用开放协议包格。(32字节数据包) 4，采用网络断开，自动连接机制保证连接。 5，采用压缩机械压缩大数据（比如.net 里面datatable,dataset的传输）。 6，采用事件机制，更容易，更符合.net开发习惯。 7，采用异步传输，较大的连接与并发。 8，采用数据包头，解决粘包。 9，采用命令方式，更容易扩展。 10，采用允许...

分类：Web程序时间：2014-05-07 08:11:20 阅读次数：494

hadoop优质链接

http://wiki.apache.org/hadoop/FAQ...

分类：其他好文时间：2014-05-07 07:51:10 阅读次数：229

Pig系统分析(8)-Pig可扩展性

本文是Pig系统分析系列中的最后一篇了，主要讨论如何扩展Pig功能，不仅介绍Pig本身提供的UDFs扩展机制，还从架构上探讨Pig扩展可能性。补充说明：前两天同事发现twitter推动的Pig On Spark项目：Spork，准备研究下。 UDFs 通过UDFs（用户自定义函数），可以自定义数据处理方法，扩展Pig功能。实际上，UDFS除了使用之前需要register/define外，和...

分类：其他好文时间：2014-05-07 05:10:44 阅读次数：567

Hadoop MapReduce2.0（Yarn）

MapReduce2.0（Yarn） MapReduce2.0是在Hadoop0.23开始采用的，叫做MapReduce2.0或者MRv2或者Yarn。 MRv2的主要思想是把jobtracker的任务分为两个基本的功能，一个是资源管理，一个是任务监控，这两个任务分别用不同的进程来运行。这个想法使拥有一个全局的资源管理器（ResourceManager）和每个应用程序的应用...

分类：其他好文时间：2014-05-07 04:05:06 阅读次数：272

共26726条上一页 1 ... 2662 2663 2664 2665 2666 ... 2673 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)