一、相关知识回顾 分布式文件存储 信息源: 购买信息元(对海量数据清洗) 自营提供(限于大公司) 爬虫、抓包 信息格式:文件、文本、sql、json 分布式计算 离线批处理 MapReduce spark 实时数据流 storm spark Sqoop数据迁移:hdfs mysql flume数据上 ...
分类:
其他好文 时间:
2020-02-19 10:28:03
阅读次数:
94
起源 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”,这使它作为企业级基础设施来处理流式数据非常有价值。此外,Kafk ...
分类:
其他好文 时间:
2020-02-17 14:03:42
阅读次数:
83
1、基本概念 Apache Storm是一个免费、开源的分布式实时计算系统。使用它可以轻松实现数据流的实时处理。Strom处理数据快速,基准时钟在超过一百万元组每秒处理的每个节点。易于设置和操作,具有可扩展性、容错性,保证了数据的处理能力。Storm主要用于实时在线分析,机器学习,连续计算,分布式R ...
分类:
其他好文 时间:
2020-02-14 18:48:25
阅读次数:
73
因为想要通过hive作为数据库来保存爬取后和处理完成的数据,需要添加spark的hive支持,这方面还没编译完,所以今天暂时没有这方面的进度,所以写写SparkSteaming。 数据的价值随着时间的流逝而减少 这也正是MapReduce的使用范围所产生的的极大弊端,没法应对大流量的实时数据,MR这 ...
分类:
其他好文 时间:
2020-02-02 21:59:34
阅读次数:
95
一、inotify简介 inotify是Linux内核的一个功能,它能监控文件系统的变化,比如删除、读、写和卸载等操作。它监控到这些事件的发生后会默认往标准输出打印事件信息。要使用inotify,Linux内核版本必须是大于2.6.13,在这之前的内核都没有这个功能。我们可以利用inotify去监控 ...
分类:
系统相关 时间:
2020-02-02 01:08:16
阅读次数:
101
Spark Streaming对实时数据流进行分析处理,源源不断的从数据源接收数据切割成一个个时间间隔进行处理; 流处理与批处理有明显区别,批处理中的数据有明显的边界、数据规模已知;而流处理数据流并没有边界,也未知数据规模; ...
分类:
其他好文 时间:
2020-01-19 22:12:37
阅读次数:
148
Apache Kafka是一个开放源代码流处理软件平台,用于处理实时数据存储。Apache Kafka在两方(即发送方和接收方)之间充当经纪人。它一天可以处理大约数万亿个数据事件。Apache Kafka是一个基于分布式流式处理过程的软件平台。Apache Kafka是一个发布-订阅消息传递系统,它... ...
分类:
Web程序 时间:
2020-01-11 15:20:11
阅读次数:
112
[TOC] Celery的使用 Celery简介 Celery是一个简单、灵活且可靠的,处理大量消息的分布式系统,专注于实时处理的异步任务队列,同时也支持任务调度,可用于处理实时数据以及任务调度。 官方链接 Celery 官网:http://www.celeryproject.org/ Celery ...
分类:
其他好文 时间:
2020-01-10 20:33:34
阅读次数:
75
这是在FoxwellNT650扫描仪上使用实时数据菜单的操作指南。实时数据菜单使您可以查看和记录来自电子控制模块的实时PID数据。菜单选项通常包括:完整的数据清单自定义数据列表如何使用“完整数据列表”菜单?使用此选项,可以查看选定系统中的所有实时PIA数据。步骤1:转到“诊断菜单”->“实时数据”,然后按“ENTER”键步骤2:从菜单中选择“完整列表”,然后按“ENTER”键以显示数据流屏幕
分类:
其他好文 时间:
2020-01-08 17:27:33
阅读次数:
102
[toc] 简要: 需求了解: 在使用 开发的过程中,很多时候需要结合多个条件或者数据的逻辑判断,比如登录功能的表单验证,实时数据比对等。这个时候我们就需要使用 RxJava 的结合操作符来完成这一需求,Rx中提供了丰富的结合操作处理的操作方法。 可用于组合多个Observables的操作方法: C ...
分类:
编程语言 时间:
2019-12-31 23:20:17
阅读次数:
107