码迷,mamicode.com
首页 >  
搜索关键字:spark streaming 作业 容错    ( 29616个结果
Apache Spark源码走读之5 -- DStream处理的容错性分析
在流数据的处理过程中,为了保证处理结果的可信度(不能多算,也不能漏算),需要做到对所有的输入数据有且仅有一次处理。在Spark Streaming的处理机制中,不能多算,比较容易理解。那么它又是如何作到即使数据处理结点被重启,在重启之后这些数据也会被再次处理呢?
分类:其他好文   时间:2014-05-06 00:58:21    阅读次数:465
spark 启动job的流程分析
从WordCount开始分析 编写一个例子程序 编写一个从HDFS中读取并计算wordcount的例子程序: packageorg.apache.spark.examples importorg.apache.spark.SparkContext importorg.apache.spark.SparkContext._ objectWordCount{ defm...
分类:其他好文   时间:2014-05-05 13:10:34    阅读次数:463
矩阵乘法专题4——bzoj 2326 [HNOI2011] 数学作业 题解
【原题】 2326: [HNOI2011]数学作业 Time Limit: 10 Sec  Memory Limit: 128 MB Submit: 853  Solved: 473 [Submit][Status] Description 【分析】我们按数字的位数来划分。对于K位数,我们就可以专门设计一个矩阵来计算。 然后就是注意细节了。 【代...
分类:其他好文   时间:2014-05-04 18:45:26    阅读次数:342
生产者/消费者问题的多种Java实现方式--转
实质上,很多后台服务程序并发控制的基本原理都可以归纳为生产者/消费者模式,而这是恰恰是在本科操作系统课堂上老师反复讲解,而我们却视而不见不以为然的。在博文《一种面向作业流(工作流)的轻量级可复用的异步流水开发框架的设计与实现》中将介绍一种生产者/消费者模式的具体应用。生产者消费者问题是研究多线程程序...
分类:编程语言   时间:2014-05-04 11:01:12    阅读次数:418
Spark中的Scheduler
Spark中的Scheduler scheduler分成两个类型,一个是TaskScheduler与其实现,一个是DAGScheduler。 TaskScheduler:主要负责各stage中传入的task的执行与调度。 DAGScheduler:主要负责对JOB中的各种依赖进行解析,根据RDD的依赖生成stage并通知TaskScheduler执行。 实例生成 TaskSchedule...
分类:其他好文   时间:2014-05-04 09:08:02    阅读次数:379
操作系统基本分段存储管理方式
操作系统基本分段存储管理方式 引入分段存储管理方式的目的:满足程序员在编程和使用上多方面的要求。这种存储管理方式已经成为当今所有存储管理方式的基础。 1、分段存储管理方式的引入 主要满足用户和程序员以下需求: 1)、方便编程 用户把自己的作业按照逻辑管理划分为若干段,每个段都是从0开始编址,并有自己的名字和长度。因此,希望要访问的逻辑地址是由段名(段号)和段内偏移量(段内地址)决定的。...
分类:其他好文   时间:2014-05-03 16:33:18    阅读次数:281
RDD的依赖关系
RDD的依赖关系 Rdd之间的依赖关系通过rdd中的getDependencies来进行表示, 在提交job后,会通过在DAGShuduler.submitStage-->getMissingParentStages privatedefgetMissingParentStages(stage: Stage): List[Stage] = { valmissing =newHash...
分类:其他好文   时间:2014-05-03 15:56:22    阅读次数:282
HDFS追本溯源:租约,读写过程的容错处理及NN的主要数据结构
Lease 的机制:hdfs支持write-once-read-many,也就是说不支持并行写,那么对读写的互斥同步就是靠Lease实现的。Lease说白了就是一个有时间约束的锁。客户端写文件时需要先申请一个Lease,对应到namenode中的LeaseManager,客户端的client name就作为一个lease的holder,即租约持有者。LeaseManager起什么作用呢? 读写过程的容错是怎么做的?数据块是如何复制的?数据块的恢复机制?本文都有涉及。...
分类:其他好文   时间:2014-05-02 23:22:14    阅读次数:450
Pig安装及本地模式实战
Pig是Apache的一个开源项目,用于简化MapReduce的开发,实质Pig将转化为MapReduce作业,使开发人员更多专注数据而不是执行的本质,是不懂java人员的福利。Pig由以下两部分组成:1、表达数据流的语言,成为PigLatin。2、运行PigLatin程序的执行环境。目前有两种环境:在单个JVM..
分类:其他好文   时间:2014-05-02 07:52:55    阅读次数:591
SQL事务日志备份时的问题
1.在进行事务日志备份的时候,如下图:3041 消息的疑难解答时的考虑事项:不会只是一个数据库或所有数据库出现问题吗?是备份到本地存储区或远程存储吗?哪种类型的备份 (数据库备份、 日志备份和差异备份) 是否出现故障?正在执行备份的应用程序 (SQL Server 代理作业、 SQL 维护计划或 V...
分类:数据库   时间:2014-05-02 00:21:38    阅读次数:512
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!