码迷,mamicode.com
首页 >  
搜索关键字:mahout hadoop canopy 聚类 大数据    ( 26726个结果
大数据时的运算效率问题
第一步,優化字段 原始數據導入數據時,對所有字段進行優化,儘可能地爲每個字段選用最小的字段類型 字符型字段,一般導入時默認會是nvarchar型,改爲varchar型節省一半空間。 數值型字段,如果是整數,如果最大可能數小於255,改爲tinyiny,如果最大可能數小於32768,改爲smallin...
分类:其他好文   时间:2014-05-26 21:35:46    阅读次数:310
Hadoop fs命令(转)
最近使用hive做一些etl工作,除了日常sql的编写,了解hadoop及hive的一些底层原理性质的东西包括调优非常有必要,一次hive调优就把原来的零散文件做了合并。首先记下hadoop常用的命令:(hadoop fs -help列出全部)1,hadoop fs –fs [local | ]:声...
分类:其他好文   时间:2014-05-26 20:44:49    阅读次数:308
用shell脚本自动化安装hadoop
hadoop环境的部署配置很费时间,有时候开发人员也不怎么关注。如何快速部署一个hadoop环境呢,我用shell脚本编写了一个小程序,可以完成这个功能。
分类:其他好文   时间:2014-05-26 20:42:07    阅读次数:436
zookeeper 分布式管理
分布式框架: Zookeeper与paxos算法一、zookeeper是什么官方说辞:Zookeeper 分布式服务框架是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。好抽象,我们...
分类:其他好文   时间:2014-05-26 16:37:39    阅读次数:300
搜索——基础工具( Searching – the basic tools)
目前,我们已经知道了怎么把ES作为一个简单的NoSQL风格的分布式文档存储的使用方法,我们能把JONS格式的document存储进去,也通过ID检索出来,但是ES的强大功能不止于此,他能整理混乱的数据,把大数据变成大信息。这也是我们使用JSON格式而不是使用其他格式存储document的原因,ES不...
分类:其他好文   时间:2014-05-26 14:44:06    阅读次数:333
大数据之网络爬虫-一个简单的多线程爬虫
本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。 爬虫实现的步骤基本如下:分析网页结构,选取自己感兴趣的部分;建立两个Buffer,一个用于保存已经访问.....
分类:编程语言   时间:2014-05-26 13:13:56    阅读次数:318
Java版本发展历史(转载自CSDN)
几年前,Java将死的话题被传得沸沸扬扬,特别是在甲骨文公司收购SUN公司后,几乎全世界的Java程序员都皱起了眉头。但随着Google Android平台的崛起以及大数据时代的来临,Java似乎又重新焕发了光芒。2014年1月份,CSDN携手《程序员》杂志发起了“2013年中国软件开发者薪资大调查...
分类:编程语言   时间:2014-05-26 08:04:01    阅读次数:261
BI与大数据
微博的诞生、云计算、物联网、移动互联网等各种爆炸式数据,给商业智能的蓬勃发展提供了良好的“大数据”环境。大数据为BI带来了海量数据。对挖掘来说,大数据量要更容易对比.抢夺大数据市场,需要具备一定的实力,报表的呈现和简易分析只是停留在“B”的阶段,要想达到“I”的阶段,必须要结合整个大环境、大行业的数...
分类:其他好文   时间:2014-05-26 07:08:41    阅读次数:221
ajax大数据排队导出+进度条
描述 :我们现在有很多数据,分表存放,现在需要有精度条的导出。最后面有完整代码。效果图:点击导出,实现点击导出统计完成之后点击确定前面导出操作简单,从第二个导出操作开始:点击"确定"调用exportCsv函数导出exportCvs函数如下 function exportCsv(){ //清除等待的转...
分类:其他好文   时间:2014-05-24 14:05:01    阅读次数:420
关于缓存的几点注意事项(个人笔记)
最近在做一个投票系统,关于缓存的使用上稍微思考了下,总结了以下几点:1.缓存的数据,一般为数据库查询出来的数据。要么就是大数据,要么就是访问频率很高的数据。2.缓存只是一个提高效率的手段,但不保险,编写代码的时候,要考虑万一缓存不命中的情况,而不知只单纯的从数据库中提取数据。一般的思路是,查询缓存数...
分类:其他好文   时间:2014-05-24 12:41:49    阅读次数:229
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!