1 spark伪分布搭建 2 环境变量 3 SPARK 配置 4 启动SPARK 5 运行例子测试 java代码 ...
分类:
其他好文 时间:
2019-02-25 18:25:07
阅读次数:
179
logging模块 本节内容 日志相关概念 logging模块简介 使用logging提供的模块级别的函数记录日志 logging模块日志流处理流程 使用logging四大组件记录日志 参考文档 一、日志相关概念 1.日志的作用 简单来讲就是,我们通过记录和分析日志可以了解一个系统或软件程序运行情况 ...
分类:
其他好文 时间:
2019-02-16 13:33:23
阅读次数:
172
Python之日志处理(logging模块) 本节内容 日志相关概念 logging模块简介 使用logging提供的模块级别的函数记录日志 logging模块日志流处理流程 使用logging四大组件记录日志 配置logging的几种方式 向日志输出中添加上下文信息 参考文档 一、日志相关概念 日 ...
分类:
编程语言 时间:
2019-02-11 17:12:08
阅读次数:
180
一、介绍 ? Scrapy 是一个基于 Twisted 的 异步处理 框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间耦合较低,扩展性和灵活强,是目前 Python 中使用 最广泛的爬虫框架 。 1. 架构示意图; 它分为以下几个部分: Engine :引擎,处理整个系统的数据流处理、 ...
分类:
其他好文 时间:
2019-02-09 12:07:07
阅读次数:
268
题目; 给定一个字符串,你需要反转字符串中每个单词的字符顺序,同时仍保留空格和单词的初始顺序。 示例 1: 注意:在字符串中,每个单词由单个空格分隔,并且字符串中不会有任何额外的空格 解题思路: 因为没有多余空格,可以先声明一个空的目标字符串,使用字符流处理类,找到一个单词后,反转,加到目标字符串上 ...
分类:
其他好文 时间:
2019-02-07 10:55:06
阅读次数:
140
Apache Kafka®是一个分布式流处理平台,它到底是什么呢? 具有三个关键能力的流处理平台: 发布和订阅记录流,类似于消息队列或企业消息传递系统 以容错的持久方式存储记录流 在流生成的时候进行流的处理 Kafka通常有两大类应用: 用于构建可靠地获取系统或应用之间的数据的实时数据流管道 用于构 ...
分类:
其他好文 时间:
2019-01-31 23:42:15
阅读次数:
239
流的分类 按方向:输入流、输出流 按数据类型:字节流、字符流 按功能:节点流、处理流 ...
分类:
编程语言 时间:
2019-01-29 20:52:44
阅读次数:
190
Scrapy是一个异步处理框架,是纯Python实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可拓展性强,可以灵活完成各种需求。我们只需要定制几个模块就可以轻松实现一个爬虫。 1.架构 Scrapy Engine,引擎,负责整个系统的数据流处理、触发事务,是整个框架的核心。 Item,项目,它定 ...
分类:
其他好文 时间:
2019-01-28 18:22:33
阅读次数:
208
开源系统及编程模型基于流计算的基本模型,当前已有各式各样的分布式流处理系统被开发出来。本节将对当前开源分布式流处理系统中三个最典型的代表性的系统:ApacheStorm,SparkStreaming,ApacheFlink以及它们的编程模型进行详细介绍。ApacheStormApacheStorm是由Twitter公司开源的一个实时分布式流处理系统[2],被广泛应用在实时分析、在线机器学习连续计算
分类:
其他好文 时间:
2019-01-27 19:23:56
阅读次数:
263
<! more 前言 目前有许多数据分析的场景从批处理到流处理的演变, 虽然可以将批处理作为流处理的特殊情况来处理,但是分析无穷集的流数据通常需要思维方式的转变并且具有其自己的术语(例如,“windowing(窗口化)”、“at least once(至少一次)”、“exactly once(只有一 ...