Hive是大数据领域常用的组件之一,主要用于大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解
分类:
其他好文 时间:
2020-09-04 16:58:58
阅读次数:
42
JDBC 增删改的操作(2) 一、项目使用技术 ? 上一次在JDBC增删改的操作(1)中StudentBasicDAOImpl实现类代码存在较多重复,将各个方法中相同代码进行向上抽取,以此减少代码的冗余,提高代码的复用性。 二、使用实例 ? StudentBasicDAOImpl实现类的优化 pub ...
分类:
数据库 时间:
2020-09-02 18:13:39
阅读次数:
61
范式理论 范式可以理解为设计一张符合标准级别的数据表结构时,所需要遵循的规范和要求。 而在关系型数据库设计时遵照一定的规范要求,可以带来很多好处。比如:降低数据的冗余性: 1. 因为数据冗余度高的话, 会增大磁盘开销 2. 在不使用分布式系统的情况下, 数据冗余度高的话, 可能需要增加磁盘的数量, ...
分类:
其他好文 时间:
2020-08-28 14:29:13
阅读次数:
47
数据处理的工作时间占整个数据分析项目的70%以上,因此,数据的质量直接决定了分析模型的准确性。那么,数据预处理的方法是什么呢?例如数据清理、数据集成、数据规范、数据转换等,其中最常用的是数据清理和数据集成,下面中琛魔方将来详细介绍一下这2种方法。 数据预处理的方法 1、数据清洗 数据清洗是通过填补缺失值,平滑或删除离群点,纠正数据的不一致来达到清洗的目的。简单来说,就是把数据里面哪些缺胳
分类:
其他好文 时间:
2020-08-13 11:52:24
阅读次数:
51
表主要的就是主键,主键相关列, 主键的主要类型就是int 类型和 GUID 类型,各有各的特点,guid 类型肯定是唯一的,速度的话比int 类型要慢不少 关于数据库的冗余 还是要见一个满足三大范式四大特性的表,各有各的好处把,因为表少和表多的感觉是不一样的,当你查询的时候,操作一个表和操作多个表的 ...
分类:
其他好文 时间:
2020-08-13 11:48:19
阅读次数:
69
比如有2个isp线路到路由器的wan口,一个主,一个备,当主的故障了,备的要立刻启用。如果wan口都是固定ip就用2条默认静态路由+2个不同优先级就可以了,如果2个wan口是adsl,就会遇到问题。解决方案:interfacedialer1dialeruserdianxindialernumber111111autodialinterfacedialer2dialeruserliantongdia
分类:
其他好文 时间:
2020-08-10 18:36:30
阅读次数:
87
前言 实际工作中,用到了远程接口调用,在网上大致查了下,Java Rest接口调用目前使用基本的apache的HttpClient的较多,但是个人觉得HttpClient使用起来较为繁琐,冗余代码较多(个人观点),所以选择了使用量较多的OkHttpClient的方式,并基于此进行封装。方便在以后的工 ...
分类:
Web程序 时间:
2020-08-05 13:08:47
阅读次数:
94
计算机网络发展 ①第一代网络 多个终端用户分时占用主机上德资源 通信控制器: 完成全部的通信任务,让主机专门进行数据的处理,提高数据处理的效率 集中器: 负责从终端到主机的数据集中以及从主机到终端的数据分发 ②分组交换网络 优点:所有的网络节点都同等重要,因而大大提高网络的生存性;有冗余的路由;网络 ...
分类:
其他好文 时间:
2020-08-02 12:45:48
阅读次数:
152
前面几篇文章把Hadoop常用的模块都学习了,剩下一个新模块Ozone,截止到今天最新版本是0.5.0Beta,还没出正式版。好在官方网站有文档,还是中文版的。 什么是Ozone Ozone 是 Hadoop 的分布式对象存储系统,具有易扩展和冗余存储的特点。 Ozone 不仅能存储数十亿个不同大小 ...
分类:
其他好文 时间:
2020-07-30 01:46:54
阅读次数:
117