1、为什么要引入Yarn和Spark。 (1)现有的hadoop生态系统中存在的问题 1)使用mapreduce进行批量离线分析; 2)使用hive进行历史数据的分析; 3)使用hbase进行实时数据的查询; 4)使用storm进行实时的流处理; (2)选用spark的原因 1) 应用于流式计算的S ...
分类:
其他好文 时间:
2021-03-16 13:32:12
阅读次数:
0
原创朴英敏Linux阅码场2019-12-18本文简介:内核死锁问题一般是读写锁(rw_semaphore)和互斥锁(mutex)引起的,本文主要讲如何通过ramdump+crash工具来分析这类死锁问题。作者简介:朴英敏,现就职于国内一家手机研发公司,任职资深系统工程师,主要负责安卓系统方面的调试工作。0、背景知识点ramdump是内存转存机制,我们可以在某个时刻把系统的内存转存到一个文件中,然
分类:
系统相关 时间:
2020-12-02 12:12:23
阅读次数:
8
一、kafka介绍及原理kafka是由Apache软件基金会发布的一个开源流处理平台,由Scala和Java编写。它是一种高吞吐量的分布式发布的订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统,
分类:
其他好文 时间:
2020-05-07 09:17:48
阅读次数:
76
企业财务职能从原先记账先生已经发展成为业务部门的战略伙伴,增强对企业决策的信息辅助支持,推动创造股东价值,所以企业财务状况的准确掌握程度对于企业能否稳定快速发展是至关重要的。我们在跟企业做项目的过程中发现,很多企业财务数据分析指标不够丰富、缺乏体系和有深度的分析、展示形式较为单一。还有之前上了传统BI的企业,对于IT依赖程度比较高,数据需求变化导致数据准备时间大幅度延长。针对这些痛点,我们给出一个
分类:
其他好文 时间:
2020-03-23 18:34:18
阅读次数:
86
sqoop是apache旗下,用于关系型数据库和hadoop之间传输数据的工具,sqoop可以用在离线分析中,将保存在mysql的业务数据传输到hive数仓,数仓分析完得到结果,再通过sqoop传输到mysql,最后通过web+echart来进行图表展示,更加直观的展示数据指标。 sqoop基础 基 ...
分类:
其他好文 时间:
2020-02-06 16:40:10
阅读次数:
80
@ "toc" 本分享为脑机学习者Rose整理发表于公众号:脑机接口社区(微信号:Brain_Computer).QQ交流群:903290195 简介 首尔国立首尔大学医学院的科研人员介绍了一种新的混合SSVEP P300 拼写器(speller),该拼写器能够产生双频SSVEP,在解决信息传输率( ...
分类:
其他好文 时间:
2020-01-31 14:28:52
阅读次数:
85
一、kafka介绍及原理kafka是由Apache软件基金会发布的一个开源流处理平台,由Scala和Java编写。它是一种高吞吐量的分布式发布的订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统,
分类:
其他好文 时间:
2019-11-26 09:35:53
阅读次数:
66
一、业务背景 网站流量统计是改进网站服务的重要手段之一,通过获取用户在网站的行为数据,进行分析,从而得到有价值的信息,并基于这些信息对网站进行改进。 二、业务需求 ①PV(Page View) 访问量:也叫点击量,即一天之内整个网站中的页面被访问的次数(对同一个页面重复访问也记为不同的PV) ②UV ...
分类:
Web程序 时间:
2019-09-03 22:16:13
阅读次数:
157
java实现网络爬虫 爬取单一页面 结果: 下面尝试将这个网页的源代码保存成为本地的一个文本文件,以便后续做离线分析。 将爬取到时数据保存到F:/papapa/目录下 控制台: 本地目录 如果想提高爬虫性能,那么我们就需要使用多线程来处理,例如:准备好5个线程来同时进行爬虫 操作。 这些线程需要标注 ...
分类:
Web程序 时间:
2019-08-28 13:07:20
阅读次数:
101