搜索关键字：mahout hadoop canopy 聚类大数据，搜索到26726个结果！码迷,mamicode.com！

大数据时的运算效率问题

第一步，優化字段原始數據導入數據時，對所有字段進行優化，儘可能地爲每個字段選用最小的字段類型字符型字段，一般導入時默認會是nvarchar型，改爲varchar型節省一半空間。數值型字段，如果是整數，如果最大可能數小於255，改爲tinyiny，如果最大可能數小於32768，改爲smallin...

分类：其他好文时间：2014-05-26 21:35:46 阅读次数：310

Hadoop fs命令(转）

最近使用hive做一些etl工作，除了日常sql的编写，了解hadoop及hive的一些底层原理性质的东西包括调优非常有必要，一次hive调优就把原来的零散文件做了合并。首先记下hadoop常用的命令：（hadoop fs -help列出全部）1，hadoop fs –fs [local | ]：声...

分类：其他好文时间：2014-05-26 20:44:49 阅读次数：308

用shell脚本自动化安装hadoop

hadoop环境的部署配置很费时间，有时候开发人员也不怎么关注。如何快速部署一个hadoop环境呢，我用shell脚本编写了一个小程序，可以完成这个功能。

分类：其他好文时间：2014-05-26 20:42:07 阅读次数：436

zookeeper 分布式管理

分布式框架： Zookeeper与paxos算法一、zookeeper是什么官方说辞：Zookeeper 分布式服务框架是Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。好抽象，我们...

分类：其他好文时间：2014-05-26 16:37:39 阅读次数：300

搜索——基础工具（ Searching – the basic tools）

目前，我们已经知道了怎么把ES作为一个简单的NoSQL风格的分布式文档存储的使用方法，我们能把JONS格式的document存储进去，也通过ID检索出来，但是ES的强大功能不止于此，他能整理混乱的数据，把大数据变成大信息。这也是我们使用JSON格式而不是使用其他格式存储document的原因，ES不...

分类：其他好文时间：2014-05-26 14:44:06 阅读次数：333

大数据之网络爬虫-一个简单的多线程爬虫

本文介绍一个简单的多线程并发爬虫，这里说的简单是指爬取的数据规模不大，单机运行，并且不使用数据库，但保证多线程下的数据的一致性，并且能让爬得正起劲的爬虫停下来，而且能保存爬取状态以备下次继续。爬虫实现的步骤基本如下：分析网页结构，选取自己感兴趣的部分;建立两个Buffer，一个用于保存已经访问.....

分类：编程语言时间：2014-05-26 13:13:56 阅读次数：318

Java版本发展历史(转载自CSDN)

几年前，Java将死的话题被传得沸沸扬扬，特别是在甲骨文公司收购SUN公司后，几乎全世界的Java程序员都皱起了眉头。但随着Google Android平台的崛起以及大数据时代的来临，Java似乎又重新焕发了光芒。2014年1月份，CSDN携手《程序员》杂志发起了“2013年中国软件开发者薪资大调查...

分类：编程语言时间：2014-05-26 08:04:01 阅读次数：261

BI与大数据

微博的诞生、云计算、物联网、移动互联网等各种爆炸式数据，给商业智能的蓬勃发展提供了良好的“大数据”环境。大数据为BI带来了海量数据。对挖掘来说，大数据量要更容易对比.抢夺大数据市场，需要具备一定的实力，报表的呈现和简易分析只是停留在“B”的阶段，要想达到“I”的阶段，必须要结合整个大环境、大行业的数...

分类：其他好文时间：2014-05-26 07:08:41 阅读次数：221

ajax大数据排队导出+进度条

描述：我们现在有很多数据，分表存放，现在需要有精度条的导出。最后面有完整代码。效果图：点击导出，实现点击导出统计完成之后点击确定前面导出操作简单，从第二个导出操作开始：点击"确定"调用exportCsv函数导出exportCvs函数如下 function exportCsv(){　//清除等待的转...

分类：其他好文时间：2014-05-24 14:05:01 阅读次数：420

关于缓存的几点注意事项（个人笔记）

最近在做一个投票系统，关于缓存的使用上稍微思考了下，总结了以下几点：1.缓存的数据，一般为数据库查询出来的数据。要么就是大数据，要么就是访问频率很高的数据。2.缓存只是一个提高效率的手段，但不保险，编写代码的时候，要考虑万一缓存不命中的情况，而不知只单纯的从数据库中提取数据。一般的思路是，查询缓存数...

分类：其他好文时间：2014-05-24 12:41:49 阅读次数：229

共26726条上一页 1 ... 2638 2639 2640 2641 2642 ... 2673 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)