码迷,mamicode.com
首页 >  
搜索关键字:mahout hadoop canopy 聚类 大数据    ( 26726个结果
中国气象局与阿里云达成战略合作
中国气象局公共服务中心与阿里云达成战略合作 5 月 27 日上午消息,中国气象局公共气象服务中心与阿里云达成战略合作,共同挖掘气象大数据的深层价值。海量气象数据将通过阿里云计算平台,变成可实时分析应用的“活数据”,服务国民经济和社会民生。这是国家部委首次采用民营科技公司提供的云计算和大数据服务。 目前,我国每年新增的气象数据达到 PB 量级(1PB=1024TB,1TB=1024GB)...
分类:其他好文   时间:2014-06-05 03:07:37    阅读次数:329
集体智慧编程中相关章节对应论文数
准备开题报告了,先要熟悉一下领域范围,《集体智慧编程》参考一下论点。简单的思路是看一下哪个话题最热门,用google学术来衡量一下论文数,虽然不够精确但是足以反应一点什么。 当然是选择最近比较热门的,同时参考一下国内的论文数目情况。 关键字 总的 2014 国内总数 2014 推荐 2,480,000 ...
分类:其他好文   时间:2014-06-05 01:59:36    阅读次数:241
企业邮箱服务优化软件
我们已经进入了大数据处理时代,需要快速、简单的处理海量数据,企业邮箱服务也面临着大数据处理,海量数据处理的三个主要因素:大容量数据、多格式数据和速度。DMCTextFilter和HTMLFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出和HTML转换通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,快速抽出纯文本数据信息和转换成HTML文件。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。...
分类:其他好文   时间:2014-06-05 01:54:15    阅读次数:220
mahout 实现canopy
mahout0.8 实现canopy...
分类:其他好文   时间:2014-06-04 23:27:37    阅读次数:384
在Hadoop中重写FileInputFormat类以处理二进制格式存储的整数
最近开始使用MapReduce,发现网上大部分例子都是对文本数据进行处理的,也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理即可。对于文本数据处理,这个类还是能满足一部分应用场景。但是如果要处理以二进制形式结构化记录存储的文件时,这些类就不再适合了。 本文以一个简单的应用场景为例:对按照二进制格式存储的整数做频数统计。以此来说明如何重写FileInputFormat来实现对非文本数据的处理。...
分类:其他好文   时间:2014-06-04 21:53:46    阅读次数:341
Hadoop与HBase中遇到的问题(续)java.io.IOException: Non-increasing Bloom keys异常
在使用Bulkload向HBase导入数据中, 自己编写Map与使用KeyValueSortReducer生成HFile时, 出现了下面的异常: java.io.IOException: Non-increasing Bloom keys: 201301025200000000000003520000000000000500 after 20131119510000000000000001...
分类:编程语言   时间:2014-06-03 05:55:44    阅读次数:359
论文战略
最近论文实验进行的非常的不顺利,一方面是实验聚类的效果十分的差,另一方面是做大数据的实验对计算机的性能要求很高,非常的耗费内存,每当矩阵的维度大于3000的时候,整个计算机就像中了魔法似的,像蜗牛一样慢。这样用小数据做实验效果非常的差,用大数据做实验计算机又跑不动,搞的自己很愚昧,不知道是自己数据集的问题,还是聚类算法的问题。...
分类:其他好文   时间:2014-06-03 05:54:21    阅读次数:263
k-means聚类JAVA实例
k-means聚类JAVA实例,《mahout in action》第六章。...
分类:编程语言   时间:2014-06-03 05:40:35    阅读次数:400
浅谈hadoop中mapreduce的文件分发
DistributedCache 是一个提供给Map/Reduce框架的工具,用来缓存文件(text, archives, jars and so on)...
分类:其他好文   时间:2014-06-03 02:18:37    阅读次数:332
Hadoop YARN资源隔离技术
YARN对内存资源和CPU资源采用了不同的资源隔离方案。对于内存资源,它是一种限制性资源,它的量的大小直接决定应用程序的死活,因为应用程序到达内存限制,会发生OOM,就会被杀死。CPU资源一般用Cgroups进行资源控制,Cgroups控制资源测试可以参见这篇博文Cgroups控制cpu,内存,io...
分类:其他好文   时间:2014-05-31 18:47:58    阅读次数:264
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!