最近工作中用了了Hadoop,比如用Hadoop来处理广告的一些pv量数据、点击数据等,最后统计后给运营展示每个广告的数据报表 首先自己了解了一些关于Hadoop的概念知识 hadoop平台提供了分布式存储(hdfs),分布式计算(mapredduce),任务调度(YARN)、对象存储(Ozone) ...
分类:
其他好文 时间:
2020-05-30 20:22:33
阅读次数:
94
大量数据从数据库里全部查出来,然后再生成报表输出到 web 端,一般需要很长时间,用户体验很差,而且报表一般采用内存计算,全读入的话也容易爆掉内存。所以大数据量报表呈现时都是采用分页的方式,尽量快速呈现第一页,用户也可以随意翻页,每次显示的一页数据量比较小,也就不会内存溢出。 大部分报表工具通常是使 ...
分类:
其他好文 时间:
2020-05-26 15:24:25
阅读次数:
92
官方地址:https://www.wireshark.org/download.html Wireshark(前称Ethereal)是一个网络封包分析软件。 网络封包分析软件的功能是撷取网络封包,并尽可能显示出最为详细的网络封包资料。Wireshark使用WinPCAP作为接口,直接与网卡进行数据报 ...
1.分组原因 IP数据报被封装在数据帧里,故数据链路层的数据报严格制约着IP数据报的长度。在路由选择中,不同的链路可能使用不同的链路层协议,有不同的MTU(最大传送单元)。以太网的MTU为1500B,而许多广域网的MTU不超过576B。 2.如何识别是同一个片 片在目的地的网络层会重新组装,目的主机 ...
分类:
其他好文 时间:
2020-05-23 18:47:47
阅读次数:
78
假设链路传输不出错,结点也不会发生故障, 试问TCP的可靠传输是否多余? TCP的可靠传输体现在传输的可靠(建立连接)、有序、无丢失和不重复问题。 即使链路传输不出错,结点也没有故障,但是 1)失序问题,每个IP数据报独立的选择路由,最终到达主机就有可能失序 2)丢失问题,某个数据可能路由选择错误, ...
分类:
其他好文 时间:
2020-05-23 16:35:52
阅读次数:
43
本文源码:GitHub·点这里||GitEE·点这里一、列式库简介ClickHouse是俄罗斯的Yandex公司于2016年开源的列式存储数据库(DBMS),主要用于OLAP在线分析处理查询,能够使用SQL查询实时生成分析数据报告。列式存储行式存储和列式存储,数据在磁盘上的组织结构有着根本不同,数据分析计算时,行式存储需要遍历整表,列式存储只需要遍历单个列,所以列式库更适合做大宽表,用来做数据分析
分类:
其他好文 时间:
2020-05-18 12:46:21
阅读次数:
68
POST和GET都是向服务器提交数据,并且都会从服务器获取数据。 区别: 1、传送方式:get通过地址栏传输,post通过报文传输。 2、传送长度:get参数有长度限制(受限于url长度),而post无限制 3、GET和POST还有一个重大区别,简单的说: GET产生一个TCP数据包;POST产生两 ...
分类:
其他好文 时间:
2020-05-17 19:17:10
阅读次数:
152
本文源码:GitHub·点这里||GitEE·点这里一、概念简介1、线程通信在操作系统中,线程是个独立的个体,但是在线程执行过程中,如果处理同一个业务逻辑,可能会产生资源争抢,导致并发问题,通常使用互斥锁来控制该逻辑。但是在还有这样一类场景,任务执行是有顺序控制的,例如常见的报表数据生成:启动数据分析任务,生成报表数据;报表数据存入指定位置数据容器;通知数据搬运任务,把数据写入报表库;该场景在相对
分类:
编程语言 时间:
2020-05-17 09:25:22
阅读次数:
74
1.TCP和UDP TCP:有连接;可靠,丢失可重传,自动排序;有拥塞控制,流量控制;字节流传导模式;系统资源多;首部复杂开销大; UDP:无连接;不可靠,丢失不可重传,不自动排序;无拥塞控制,流量控制;数据报传导模式;系统资源少;首部简单开销小; 2.三次握手四次挥手 建立连接三次握手时,服务器同 ...
分类:
其他好文 时间:
2020-05-15 15:39:51
阅读次数:
58
网络层 在上一章中简述的数据链路层,其中数据段封装的就是网络层的内容. 网络层提供服务的思路 + 虚电路 + 数据报服务 虚电路和数据服务报 对比 |对比的方面|虚电路的服务|数报服务| | | | | 思路| 可靠通信应该由网络来保证|可靠通信应当用户主机来保证 连接的建立| 必须有| 不需要 终 ...
分类:
其他好文 时间:
2020-05-13 20:30:12
阅读次数:
80