搜索关键字：大数据 spark 倒排索引，搜索到19162个结果！码迷,mamicode.com！

flex 圆形布局

xmlns:s="library://ns.adobe.com/flex/spark" xmlns:mx="library://ns.adobe.com/flex/mx" creationComplete="init(event)"> import mx.core.IVisualElement; import mx.core.IVisualElementContai...

分类：其他好文时间：2014-07-22 23:05:55 阅读次数：338

社会化海量数据采集爬虫框架搭建

如果你对项目管理、系统架构有兴趣，请加微信订阅号“softjg”，加入这个PM、架构师的大家庭随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间...

分类：其他好文时间：2014-05-12 17:06:14 阅读次数：396

Apache Spark源码走读之5 -- DStream处理的容错性分析

在流数据的处理过程中，为了保证处理结果的可信度(不能多算，也不能漏算)，需要做到对所有的输入数据有且仅有一次处理。在Spark Streaming的处理机制中，不能多算，比较容易理解。那么它又是如何作到即使数据处理结点被重启，在重启之后这些数据也会被再次处理呢？

分类：其他好文时间：2014-05-06 00:58:21 阅读次数：465

spark 启动job的流程分析

从WordCount开始分析编写一个例子程序编写一个从HDFS中读取并计算wordcount的例子程序: packageorg.apache.spark.examples importorg.apache.spark.SparkContext importorg.apache.spark.SparkContext._ objectWordCount{ defm...

分类：其他好文时间：2014-05-05 13:10:34 阅读次数：463

C2B的未来：大数据定制

昨天看到微信SuperSofter写了一篇文章，有感而发，以便备注。这是一种典型的C2B模式。阿里不只是在与腾讯拼移动，它的电商本土业务也在稳步推进。最近一个里程碑事件是，阿里包下了美的、九阳、苏泊尔等十个品牌的12条生产线，专为天猫特供小家电。阿里通过所掌握的数据以及分析成果，去指导这些生产线的研发、设计、生产、定价。 C2B与规模化之间的矛盾 C2B反向定制模式...

分类：其他好文时间：2014-05-04 00:15:15 阅读次数：289