继上篇第一阶段清洗数据并导入hive 本篇是剩下的两阶段 2、数据处理: ·统计最受欢迎的视频/文章的Top10访问次数 (video/article) ·按照地市统计最受欢迎的Top10课程 (ip) ·按照流量统计最受欢迎的Top10课程 (traffic) 3、数据可视化:将统计结果倒入MyS ...
分类:
其他好文 时间:
2019-11-16 23:06:41
阅读次数:
71
两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article/11325 视频: video/3235 (2)第二阶段:根据提取出来的信息做精细化 ...
分类:
其他好文 时间:
2019-11-15 09:35:46
阅读次数:
121
1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article/11325 ...
分类:
数据库 时间:
2019-11-14 00:02:19
阅读次数:
222
题目要求: 1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article ...
分类:
其他好文 时间:
2019-11-13 23:53:43
阅读次数:
176
虚拟机: hadoop:3.2.0 hive:3.1.2 win10: eclipse 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: articl ...
分类:
数据库 时间:
2019-11-13 22:25:39
阅读次数:
162
技术 1.以 MySQL 的 InnoDB 引擎为例,由于 MySQL 中有两套日志机制,一套是存储层的 redo log,另一套是 server 层的 binlog,每次更新数据都要对两个日志进行更新。为了防止写日志时只写了其中一个而没有写另外一个,MySQL 使用了一个叫两阶段提交的方式保证事务 ...
分类:
其他好文 时间:
2019-11-06 00:39:39
阅读次数:
75
1、2PC协议 2PC 是二阶段提交(Two-phase Commit)的缩写,顾名思义,这个协议分两阶段完成。第一个阶段是准备阶段,第二个阶段是提交阶段,准备阶段和提交阶段都是由事务管理器(协调者)发起的,协调的对象是资源管理器(参与者)。二阶段提交协议的概念来自 X/Open 组织提出的分布式事 ...
分类:
其他好文 时间:
2019-11-01 18:42:17
阅读次数:
117
1、2PC协议 2PC 是二阶段提交(Two-phase Commit)的缩写,顾名思义,这个协议分两阶段完成。第一个阶段是准备阶段,第二个阶段是提交阶段,准备阶段和提交阶段都是由事务管理器(协调者)发起的,协调的对象是资源管理器(参与者)。二阶段提交协议的概念来自 X/Open 组织提出的分布式事 ...
分类:
其他好文 时间:
2019-10-29 15:39:50
阅读次数:
141
阅读论文注意事项: (1)对于一篇好的论文,首先会介绍之前的研究有什么问题,这篇论文解决了什么问题,他的有点在什么地方。 (2)在复现一篇论文之前,应该仔细去阅读论文实验部分。因为直觉阅读方法部分就去复现,往往难以达到论文所提出的那个效果。在细节上的处理,作者会在实验部分介绍。 1、Introduc ...
分类:
编程语言 时间:
2019-10-20 12:50:02
阅读次数:
68
不同于单一架构应用(Monolith), 分布式环境下, 进行事务操作将变得困难, 因为分布式环境通常会有多个数据源, 只用本地数据库事务难以保证多个数据源数据的一致性. 这种情况下, 可以使用两阶段或者三阶段提交协议来完成分布式事务.但是使用这种方式一般来说性能较差, 因为事务管理器需要在多个数据 ...
分类:
编程语言 时间:
2019-10-18 18:57:58
阅读次数:
99