搜索关键字：hive ，搜索到5904个结果！码迷,mamicode.com！

sqoop 从mysql导入hive的字段名称问题

hive中有些关键字限制，因此有些字段名称在mysql中可用，但是到了hive就不行。比如order必须改成order1, 下面列出了我们发现的一些不能在hive中使用的字段名称order => order1sort => sort1reduce => reduce1cast => cast1directory => directory1...

分类：数据库时间：2014-07-19 11:33:04 阅读次数：263

Hive架构层面优化之一分表

场景：某个日志表数据量很大，而且访问该表的作业比较多，造成耗时比较长；解决方案：将用的比较少/不常用的字段剥离出去；案例：日志表trackinfo，每天约有2亿数据量，有5000个作业按天访问，每天的日志数据量有可能会继续添加下去，那么很可能就满足不了要求（每添加10%的数据量作业大概要添加20分钟...

分类：其他好文时间：2014-07-18 20:35:32 阅读次数：192

Hive架构层面优化之二合理利用中间结果集（单Job）

是针对单个作业，针对本job再怎么优化也不会影响到其他job；Hadoop的负载主要有两部分：CPU负载和IO负载；问题：机器io开销很大，但是机器的cpu开销较小，另外map输出文件也较大，怎么办？解决办法：通过设置map的中间输出进行压缩就可以了，这个不会影响最终reduce的输出。集群中的机器...

分类：其他好文时间：2014-07-18 20:29:09 阅读次数：384

Hive架构层面优化之五合理设计表分区(静态分区和动态分区)

合理建表分区有效提高查询速度。重要数据采用外部表存储，CREATE EXTERNAL TABLE，数据和表只是一个location的关联，drop表后数据不会丢失；内部表也叫托管表，drop表后数据丢失；所以重要数据的表不能采用内部表的方式存储。在全天的数据里查询某个时段的数据，性能很低效-----...

分类：其他好文时间：2014-07-18 20:16:47 阅读次数：298

从hive将数据导出到mysql（转）

从hive将数据导出到mysqlhttp://abloz.com2012.7.20author:周海汉在上一篇文章《用sqoop进行mysql和hdfs系统间的数据互导》中，提到sqoop可以让RDBMS和HDFS之间互导数据，并且也支持从mysql中导入到HBase，但从HBase直接导入mysq...

分类：数据库时间：2014-07-18 20:00:07 阅读次数：482

Hive架构层面优化之七压缩

常见的压缩有：对中间结果压缩、对输出结果压缩。压缩对比：算法压缩前/压缩后压缩速度解压速度GZIP13.4%21MB/s118 MB/sLZO20.5%135 MB/s410 MB/sSnappy22.2%172 MB/s409 MB/sSnappy介绍：Snappy 网站：http://code....

分类：其他好文时间：2014-07-18 16:12:24 阅读次数：352

Hive ERROR: Out of memory due to hash maps used in map-side aggregation .

当hive在执行大数据量的统计查询语句时，经常会出现下面OOM错误，具体错误提示如下：Possible error: Out of memory due to hash maps used in map-side aggregation.Solution: Currently hive.map.ag...

分类：其他好文时间：2014-07-18 11:37:23 阅读次数：305

Hive架构层面优化之六分布式缓存

案例：Hadoop jar引用：hadoop jar -libjars aa.jar bb.jar ….jar包会被上传到hdfs，然后分发到每个datanode假设有20个jar文件，每天jar文件被上传上万次，分发达上万次（百G级），造成很严重的IO开销。如何使这些jar包在HDFS上进行缓存，...

分类：其他好文时间：2014-07-18 00:23:59 阅读次数：265

日志分析方法概述

最近几年日志分析这方面的人才需求越来越多，主要伴随数据挖掘的快速发展而迅速增长的。碰巧又在工作中又接触到一些日志记录方面的工作，就顺便了解一下日志系统的整个流程。下面这篇文章转自百度同学的一篇文章，针对大规模日志分析，联系到hadoop,hive的解决方案，阐述的比较全面。另外就是阿里已经开发出类似的系统odps—通过sql语言进行数据的分析处理，详情见：http://102.alibab...

分类：其他好文时间：2014-07-17 20:15:30 阅读次数：301

Hive优化策略介绍

作为企业Hadoop应用的核心产品之一，Hive承载着公司95%以上的离线统计，甚至很多企业里的离线统计全由Hive完成；Hive在企业云计算平台发挥的作用和影响越来越大，如何优化提速已经显得至关重要；Hive作业的规模决定着优化层级，一个Hive作业的优化和一万个Hive作业的优化截然不同；后续文...

分类：其他好文时间：2014-07-17 13:13:40 阅读次数：266

共5904条上一页 1 ... 576 577 578 579 580 ... 591 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)