码迷,mamicode.com
首页 >  
搜索关键字:mahout hadoop canopy 聚类 大数据    ( 26726个结果
Mahout kmeans聚类
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
分类:其他好文   时间:2014-05-26 06:00:31    阅读次数:239
详细总结 使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出
一、使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase    二、使用Sqoop将HDFS/Hive/HBase中的数据导出到MySQL 2.3 HBase中的数据导出到mysql 目前没有直接的命令将HBase中的数据导出到MySQL,但可以先将HBase中的数据导出到HDFS中,再将数据导出到MySQL。 三、使用Sqoop将Orac...
分类:数据库   时间:2014-05-26 05:48:46    阅读次数:304
hadoop学习;block数据块;mapreduce实现例子;UnsupportedClassVersionError异常;关联项目源码
对于开源的东东,尤其是刚出来不久,我觉得最好的学习方式就是可以看源码和doc,测试它的例子 为了方便查看源码,关联导入源码的项目 block数据块,在配置文件hdfs-default.xml中可以查看到,记住要修改不是在这里 block文件存储块是最基本的单位 查看block存放位置,配置文件中查看 如果文件大于64M会占两个块,meta文件是校验...
分类:其他好文   时间:2014-05-26 05:30:58    阅读次数:227
详细图解 Flume介绍、安装配置
写在前面一: 本文总结“Hadoop生态系统”中的其中一员——Apache Flume 写在前面二: 所用软件说明: 一、什么是Apache Flume 官网:Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and m...
分类:其他好文   时间:2014-05-26 04:32:10    阅读次数:359
Mahout 模糊kmeans
FCM 算法用一个Job寻找cluster的中心点。在map的初始化节点,加载初始化(或上一轮迭代的结果)中心点。在map中计算point 和每一个簇的亲和度。在combiner计算同一个cluster的参数,该过程只能计算同一cluster的局部信息。在reduce中首先计算同一个cluster的全局参数,然后计算该cluster是否收敛,输出cluster。...
分类:其他好文   时间:2014-05-26 04:12:39    阅读次数:302
Mahout canopy聚类
Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好。...
分类:其他好文   时间:2014-05-26 03:21:30    阅读次数:321
NEO4J数据插入测试
笔者在项目中遇到了大量节点数据导入到NEO4J数据库时内存溢出的问题,在翻阅了官方文档后做了以下测试与大家分享,如果不对,还请大家指出。 CPU: I3 2.4Ghz 4核, 内存8G ?方式一:采用其原生接口操作 JVM:-Xms1024m -Xmx1024m -Xmn512m -XX:PermSize=128m -XX:MaxPermSize=256m 4000 节点(50个属性),4000关系:1秒, 其间cpu使用率25%,761M 8000节点(50个属性),8000关系:2秒, 其间cp...
分类:其他好文   时间:2014-05-24 19:07:05    阅读次数:524
hadoop安装计
hadoop安装计大体上按这个做就好了http://blog.csdn.net/hitwengqi/article/details/8008203需要修改hadoop-env.shexport JAVA_HOME=/usr/lib/jvm/java-6-openjdk-amd64export PAT...
分类:其他好文   时间:2014-05-24 11:17:22    阅读次数:210
MapReduce Kmeans聚类算法
最近在网上查看用MapReduce实现的Kmeans算法,例子是不错,http://blog.csdn.net/jshayzf/article/details/22739063但注释太少了,而且参数太多,如果新手学习的话不太好理解。所以自己按照个人的理解写了一个简单的例子并添加了详细的注释。大致的步...
分类:其他好文   时间:2014-05-24 10:41:01    阅读次数:315
上传大数据到SharePoint 2010
今天终于把近5G的数据上传到了SharePoint2010站点上,上传过程中发现几个要注意的问题: 1. 用360浏览器打开SP 2010站点,发现在workspace同步和windows explorer二个按钮都被禁掉了(但workspace可以连到sp site进行同步),但检查了站点设置里面...
分类:其他好文   时间:2014-05-24 10:24:58    阅读次数:230
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!