spark-streaming对接kafka有两种方式:1.基于receiver的方式,属于高级API,简单但是效率低,容易丢失数据(可以设置WAL)。它的原理是:receiver从kafka拉取数据存储到executor的内存中,spark-streaming启动job处理数据。偏移量保存在zoo ...
分类:
其他好文 时间:
2020-01-03 14:07:49
阅读次数:
84
```python import requests import re import uuid from concurrent.futures import ThreadPoolExecutor pool = ThreadPoolExecutor(50) # 爬虫三部曲 # 1.发送请求 def g... ...
分类:
其他好文 时间:
2020-01-02 20:58:12
阅读次数:
111
爬取梨视频步骤: 1.爬取梨视频主页,获取主页所有的详情页链接 url: https://www.pearvideo.com/ 1) 往url发送请求,获取主页的html文本 2) 解析并提取详情页相对路径video_1637593,与主页拼接即可 拼接后获取的是电影详情页url: detail_u ...
分类:
其他好文 时间:
2020-01-01 00:02:45
阅读次数:
129
Executor Framework e.g. Runnable interface specifies a task to execute concurrently with other tasks. run() contains the task to perform. Executor Int ...
分类:
编程语言 时间:
2019-12-31 18:23:13
阅读次数:
66
hbase调优 一.表的设计 1.设置预分区表 原因:前期region读写都集中到一个regionserver上,直到文件足够大时,才进行分区,这样会降低性能. 解决方案:建表是设置预分区,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。 public static ...
分类:
其他好文 时间:
2019-12-30 14:28:10
阅读次数:
76
private static final ThreadPoolExecutor executor = new ThreadPoolExecutor(32, 128, 120, TimeUnit.SECONDS, new LinkedBlockingQueue<>(512), r -> { Threa ...
分类:
编程语言 时间:
2019-12-29 20:28:09
阅读次数:
175
1.回到 Jenkins 首页,点击 “构建执行状态”或“Build Executor Status” ,右则会列出本机信息。 完美解决!!! ...
分类:
编程语言 时间:
2019-12-28 09:35:40
阅读次数:
79
1.点击设置 点击CodeRunner的小齿轮,点击configure extension settings 2.点击映射 点击executor map中的Edit in settings.json 3.粘贴代码 粘贴如下代码,按下command + s 进行保存 ...
分类:
编程语言 时间:
2019-12-23 13:19:20
阅读次数:
415
00-前言 初步撰写了azkaban Multi Executor Server 模式的部署说明,只是在单一节点上同时部署了web以及excutor。多excutor的情况可能会稍有不一样,待完善 01-环境介绍 1.基础环境介绍 CentOS7 azkaban 3.81.0 jdk 8 注意:需要 ...
分类:
其他好文 时间:
2019-12-20 11:49:17
阅读次数:
104
测试jenkins构建,报错如下 手动确定了 和 都是正常存在的目录,但还是报错没有文件或目录 于是乎手动执行了一下上面提示的命令: 哦吼,问题出来了,缺少依赖包 ,安装 ...
分类:
编程语言 时间:
2019-12-19 12:47:28
阅读次数:
284