一、大数据分析工具——Hadoop Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它 ...
分类:
其他好文 时间:
2021-06-02 13:17:23
阅读次数:
0
简介: 本文将会介绍Hologres基于roaringbitmap实现超高基数的UV计算 RoaringBitmap是一种压缩位图索引,RoaringBitmap自身的数据压缩和去重特性十分适合对于大数据下uv计算。其主要原理如下: 对于32bit数, RoaringBitmap会构造2^16个桶 ...
分类:
其他好文 时间:
2021-06-02 13:11:42
阅读次数:
0
Kafka概述 Kafka是一个基于发布、订阅的分布式消息队列,用于大数据实时处理。 为什么要用kafka? 注册信息的过程,先在网站上填写注册信息,后台会调用其他服务的接口,反馈给网页注册成功信息,最后再显示给用户,并且将短信发送给用户,该过程为同步通信过程,需要同步等待,由于同步通信的过程比较慢 ...
分类:
其他好文 时间:
2021-06-02 12:12:15
阅读次数:
0
Nosql概述: 大数据时代,一般的数据库无法支撑 为什么要用NoSQL 用户的个人信息,社交网络,地理位置,用户自己产生的数据,用户的日志等等爆发式增长! 这时候我们需要使用NoSQL数据库,可以很好的处理以上情况 什么是NoSQL NoSQL = Not Only SQL泛指非关系型数据库 No ...
分类:
其他好文 时间:
2021-06-02 11:55:43
阅读次数:
0
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多 ...
分类:
其他好文 时间:
2021-05-25 18:15:53
阅读次数:
0
安装准备 Spark 集群和 Hadoop 类似,也是采用主从架构,Spark 中的主服务器进程就叫 Master(standalone 模式),从服务器进程叫 Worker Spark 集群规划如下: node-01:Master node-02:Worker node-03:Worker 安装步 ...
分类:
其他好文 时间:
2021-05-24 17:07:05
阅读次数:
0
启动hive时,show databases; 然后报错: 查看自己的配置文件没有问题(hbase-site.xml中配置的mysql账号信息与mysql账号信息一致),于是乎看别人的解决方法: 第一种解决办法(失败)[1]: 由于没有初始化数据库导致,执行名称初始化数据库,执行命令: schema ...
分类:
数据库 时间:
2021-05-24 16:48:31
阅读次数:
0
摘要: 图数据库,如果是刚接触的人,可能会被其字面意思所误导。其实,图数据库并不是指存储图片、图像的数据库,而是指存储图这种数据结构的数据库。那么图又是什么呢? 本文分享自华为云社区《图数据库到底是个啥》,原文作者:你好_TT 。 近些年来,在大数据处理过程中有一种被广泛提及和使用的数据库,那就是图 ...
分类:
数据库 时间:
2021-05-24 15:56:35
阅读次数:
0
方案一:手动拷贝需要的相关jar包 flume对接HBASE报错,找不到相关的类: 报错hbase相关日志: 18 五月 2021 17:25:50,633 ERROR [lifecycleSupervisor-1-2] (org.apache.flume.lifecycle.LifecycleSu ...
分类:
Web程序 时间:
2021-05-24 15:18:47
阅读次数:
0
前言 工业互联网平台普遍面临的问题是: 1、在数据完成采集和展示之后,数据如何分析、如何挖掘、如何建模、如何将数据价值变现? 2、不同行业的技术原理、行业知识、基础工艺都不一样,如何建设跨行业跨领域的工业互联网平台? 泛在感知中台是跨行业跨领域的大数据处理中台,可以帮助企业提升平台能力,为企业提供丰 ...
分类:
其他好文 时间:
2021-05-24 13:32:33
阅读次数:
0