码迷,mamicode.com
首页 >  
搜索关键字:大数据 spark 倒排索引    ( 19162个结果
flex 圆形布局
xmlns:s="library://ns.adobe.com/flex/spark"    xmlns:mx="library://ns.adobe.com/flex/mx" creationComplete="init(event)"> import mx.core.IVisualElement; import mx.core.IVisualElementContai...
分类:其他好文   时间:2014-07-22 23:05:55    阅读次数:338
社会化海量数据采集爬虫框架搭建
如果你对项目管理、系统架构有兴趣,请加微信订阅号“softjg”,加入这个PM、架构师的大家庭 随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间...
分类:其他好文   时间:2014-05-12 17:06:14    阅读次数:396
Apache Spark源码走读之5 -- DStream处理的容错性分析
在流数据的处理过程中,为了保证处理结果的可信度(不能多算,也不能漏算),需要做到对所有的输入数据有且仅有一次处理。在Spark Streaming的处理机制中,不能多算,比较容易理解。那么它又是如何作到即使数据处理结点被重启,在重启之后这些数据也会被再次处理呢?
分类:其他好文   时间:2014-05-06 00:58:21    阅读次数:465
spark 启动job的流程分析
从WordCount开始分析 编写一个例子程序 编写一个从HDFS中读取并计算wordcount的例子程序: packageorg.apache.spark.examples importorg.apache.spark.SparkContext importorg.apache.spark.SparkContext._ objectWordCount{ defm...
分类:其他好文   时间:2014-05-05 13:10:34    阅读次数:463
C2B的未来:大数据定制
昨天看到微信SuperSofter写了一篇文章,有感而发,以便备注。 这是一种典型的C2B模式。阿里不只是在与腾讯拼移动,它的电商本土业务也在稳步推进。最近一个里程碑事件是,阿里包下了美的、九阳、苏泊尔等十个品牌的12条生产线,专为天猫特供小家电。阿里通过所掌握的数据以及分析成果,去指导这些生产线的研发、设计、生产、定价。 C2B与规模化之间的矛盾 C2B反向定制模式...
分类:其他好文   时间:2014-05-04 00:15:15    阅读次数:289
推荐《Python基础教程》
近日浏览csdn博客,发先一本自编的分享自编《Python基础教程》无水印文字版,推荐读之,内容朴实无华无拖泥带水,板式清晰,是python入门和初学者必藏教程。 下载地址  http://download.csdn.net/detail/u014036026/7188403...
分类:编程语言   时间:2014-05-03 17:06:16    阅读次数:407
RDD的依赖关系
RDD的依赖关系 Rdd之间的依赖关系通过rdd中的getDependencies来进行表示, 在提交job后,会通过在DAGShuduler.submitStage-->getMissingParentStages privatedefgetMissingParentStages(stage: Stage): List[Stage] = { valmissing =newHash...
分类:其他好文   时间:2014-05-03 15:56:22    阅读次数:282
Ubuntu14下Hadoop开发<1> 基础环境安装
在Ubuntu14.04下使用Hadoop2.4进行大数据开发之基础环境准备篇...
分类:其他好文   时间:2014-05-02 19:56:21    阅读次数:367
关系型数据库与非关系型数据库
关系型数据库与非关系型数据库自1970年,埃德加·科德提出关系模型之后,关系数据库便开始出现,经过了40多年的演化,如今的关系型数据库具备了强大的存储、维护、查询数据的能力。但在关系数据库日益强大的时候,人们发现,在这个信息爆炸的“大数据”时代,关系型数据库遇到了性能方面的瓶颈,面对一个表中上亿条的...
分类:数据库   时间:2014-05-02 09:02:06    阅读次数:365
flare-spork: 自己维护的Pig on Spark项目
很早以前有个Pig Spork分支,尝试把Pig迁移到Spark上,但是代码很久没有更新了。目前Pig on Spark应该是在Twitter内部进行着。 flare-spork是基于Spork对Pig和Spark的衔接,把Spark部分的代码迁移到了Pig 0.12.0上,并且升级了依赖和版本,升级为Scala 2.10.3,Spark 0.9.1,且兼容Hadoop 2.2.0。 目前项目在Github上,地址。打算参考Spork已经做的一些东西,继续Pig on Spark的开发。 Github...
分类:其他好文   时间:2014-04-30 22:15:39    阅读次数:360
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!