码迷,mamicode.com
首页 >  
搜索关键字:大数据 sqoop 数据处理    ( 17411个结果
zookeeper(一) 介绍
在过去,每个应用都是单个程序,跑在单一CPU的单一服务器上。现在不一样了。在大数据和云计算的世界里,应用都是由许多独立的程序运行在一组不断变化的机器上。 协调这些独立程序的行为比起单一程序来困难的多。这样很容易导致开发人员陷入协调的逻辑而没有时间来实现正确的应用逻辑,或者反过来,花很少的时...
分类:其他好文   时间:2014-07-16 21:20:54    阅读次数:149
每天一点新东西(1)
记得还没毕业的时候,那时候我还不知道网优是什么,我的目标是做一名改变世界的程序猿,虽然我现在的目标也没有变,但是人毕竟不能两次踏入同一条河流,所以,过去终究只能是过去。 偶然看到了mapreduce,度娘告诉我这是一个用来处理大数据的框架,回想起当时笔试去哪儿网的时候的一篇2M的小说中找出张无忌出....
分类:其他好文   时间:2014-07-16 21:00:34    阅读次数:279
制造业如何利用大数据
大数据是信息技术的重要概念。很多企业正在搜集大数据并使用复杂的分析工具对其进行分析,以期发现隐藏的规律和关联。如果生产制造系统发生重大变更的时候也能够自动识别并找到最佳的作业条件,例如设备发生故障、原材料特性发生变化或者能源和人力成本发生变化,那么是不是很棒呢?这就是生产制造领域内大数据的存在意.....
分类:其他好文   时间:2014-07-16 20:03:29    阅读次数:165
Python 将pdf转换成txt(不处理图片)
上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要。查找了很多资料,在linux下要将doc转换成txt确实有难度,所以考虑先将pdf转换成txt。 师兄推荐使用PDFMiner来处...
分类:编程语言   时间:2014-07-14 10:10:14    阅读次数:249
C#中几种数据库的大数据批量插入
C#语言中对SqlServer、Oracle、SQLite和MySql中的数据批量插入是支持的,不过Oracle需要使用Orace.DataAccess驱动。IProvider里有一个用于实现批量插入的插件服务接口IBatcherProvider。批量插入的实现可以通过实现该接口来实现。 //...
分类:数据库   时间:2014-07-14 09:05:21    阅读次数:387
互联网大型应用软件架构设想与推荐
见过很多成长中的企业,随着业务的扩大,数据流的增加,自家的软件越来越受到成长性的颈瓶,于是乎高薪招来大牛,然后就急急忙忙的乱设计架构做试验,最后搞的头痛医头,脚痛医脚的局面。               这样的企业国内太多,多的我都不好意思说了。               无论什么软件受到成长性的颈瓶,除了历史架构原因,没有别的因素了。               目前解决数据流颈瓶的技术...
分类:其他好文   时间:2014-07-12 21:47:30    阅读次数:287
史上最全的hadoop
课程主要涉及Hadoop Sqoop、Flume、Avro重要子项目的技术实战 课程针对人群 1、本课程适合于有一定java基础知识,对数据库和sql语句有一定了解,熟练使用linux系统的技术人员,特别适合于想换工作或寻求高薪职业的人士 2、最好有Greenplum Hadoop、Hadoop2.0、YARN、Sqoop、FlumeAvro等大数据基础,学习过北风课程《Gree...
分类:其他好文   时间:2014-07-12 20:58:37    阅读次数:220
Tom's Android Course
Android底层框架解析与Java&C/C++软硬整合开发技术主讲人:高焕堂(台湾Android教父级专家)课程简介:在智能&大数据时代,系统开发不仅仅攸关软件设计与开发,还涉及深度软硬整合的智能硬件设计与开发。在当今产业的成功方程式:(((硬件+软件)+内容)+电信)潮流下,如何..
分类:移动开发   时间:2014-07-12 16:44:53    阅读次数:465
Spark大师之路:广播变量(Broadcast)源码分析
概述 最近工作上忙死了……广播变量这一块其实早就看过了,一直没有贴出来。 本文基于Spark 1.0源码分析,主要探讨广播变量的初始化、创建、读取以及清除。   类关系 BroadcastManager类中包含一个BroadcastFactory对象的引用。大部分操作通过调用BroadcastFactory中的方法来实现。 BroadcastFactory是一个Trait,有两个直接子...
分类:其他好文   时间:2014-07-10 19:43:49    阅读次数:298
2.HDFS操作
1.使用命令行操作1)4个通用命令行<1>archive归档文件的创建用途:由于hadoop的设计是为了处理大数据,理想的数据应该blocksize的倍数。namenode在启动时会将所有的元数据load到内存中当大量小于blocksize的文件存在的时候,,不仅占用了大量的存储空间,也占用了大量的n..
分类:其他好文   时间:2014-07-10 18:56:21    阅读次数:353
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!