在阿里云上搭建爬取某信的公众号文章的程序时,发现需要验证码验证,技穷之后考虑做一个验证码识别程序,所以开始在服务器上搭建机器学习平台,背景,服务器上已经有其他应用在跑着了,所以不想停服,当前环境:centos7 gcc Python2.7 找了找其他人的经验,觉得可以参考这篇的方法,https:// ...
分类:
其他好文 时间:
2018-10-28 19:19:58
阅读次数:
210
聚合aggregate 聚合(aggregate)是基于数据处理的聚合管道,每个文档通过一个由多个阶段(stage)组成管道,可以对每个阶段的管道进行分组、过滤等功能,然后经过一系列的处理,输出相应的结果。 db.集合名称.aggregate({管道:{表达式}}) 常用管道 在mongodb中,文 ...
分类:
数据库 时间:
2018-10-28 13:40:06
阅读次数:
234
account-main:日志2018-10-26 16:05:29 INFO com.sprucetec.pop.account.service.impl.LoginServiceImpl getUserInfoByPassportToken:79 - getUserInfoByPassportT ...
分类:
其他好文 时间:
2018-10-26 20:33:05
阅读次数:
1944
0. 说明 官方文档 Job Scheduling Spark 调度核心组件: 1. DagScheduler direct acycle graph , 有向无环图调度器 高级调度器,面向的是 stage ,为每个 job 计算 stage 的 DAG 图,跟踪 RDD 和 stage 的输出,找 ...
分类:
其他好文 时间:
2018-10-26 00:43:30
阅读次数:
147
1 echo $HOME 2 # For macOS 10.12+, new security enforcement need following command. 3 #security set-key-partition-list -S apple: -k "Password" -D $HOM... ...
分类:
其他好文 时间:
2018-10-15 14:31:27
阅读次数:
220
前面我们应知道了一个任务提交会由DAG拆分为job,stage,task,最后提交给TaskScheduler,在提交taskscheduler中会根据master初始化taskscheduler和schedulerbackend两个类,并且初始化一个调度池; 1.调度池比较 根据mode初始化调度 ...
分类:
其他好文 时间:
2018-10-14 16:52:22
阅读次数:
237
上次分析了dagshceduler是如何将任务拆分成job,stage,task的,但是拆分后的仅仅是一个逻辑结果,保存为一个resultstage对象,并没执行; 而将任务正在执行的是spark的taskscheduler模块和shcedulerbackend模块, taskcheduler模块负 ...
分类:
其他好文 时间:
2018-10-13 14:43:23
阅读次数:
154
spark job spark job提交 三级调度框架, DagSch,计算stage,提交阶段,将stage映射成taskset,提交taskset给tasksch。 TaskSch BackendSch setMaster("local[n]") n表示使用n个线程模拟的spark集群下的wo ...
分类:
其他好文 时间:
2018-10-12 23:39:15
阅读次数:
177
1 . 版本库 (Repositoryy) 工作区有一个隐藏目录.git,这个不算工作区,而是Git的版本库。(通过命令ls -ah 可以看到) Git的版本库里存了很多东西,其中最重要的就是称为stage(或者叫index)的暂存区,还有Git为我们自动创建的第一个分支master,以及指向mas ...
分类:
其他好文 时间:
2018-10-11 23:51:09
阅读次数:
241
上篇中已经分析了DAGscheduler的监听机制,以及job的划分,这次我们再来看一看stage是如何划分以及stage的最终提交; 当jobsubmit 加入到DAGscheduler的event队列中的时候, 就会将job的stage划分为resultstage 和 shufflestage, ...
分类:
其他好文 时间:
2018-10-11 13:39:28
阅读次数:
121