Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hiv...
分类:
其他好文 时间:
2014-08-14 16:22:48
阅读次数:
244
适用于场景连接的列数据量很大,在分布式缓存中无法存储时,Bloom Filter 可解决这个问题,用很小的内存可有MAP端过滤掉不需要JOIN的数据,这样传到REDUCE的数据量减少,减少了网络传及磁盘IO。缺点Bloom Filter 会有一定的错误率,但是错误率很低,用空间换取了时间。并且,最终...
分类:
其他好文 时间:
2014-08-14 16:05:39
阅读次数:
284
join x == x >>= id看看bind >>= 要求是左边m a右边 a -> m b但是id是 a -> aso.... a = m bso... x = m(m b)m (m b) -> mb那就是。。。join啦
分类:
其他好文 时间:
2014-08-14 13:56:58
阅读次数:
167
方法一:$this->db->query("sql 语句"); 直接写sql语句方法二: #多表关联查询 $data=$this->db->from('goods') ->join('shop','shop.shopid=goods.shopid') ...
分类:
其他好文 时间:
2014-08-14 13:30:48
阅读次数:
242
1、表访问方式优化:a)普通表优先“Index Lookup 索引扫描”,避免全表扫描大多数场景下,通过“Index Lookup 索引扫描”要比“Full Table Scan (FTS) 全表扫描”效率要高的多。在编写SQL时,为了保证查询能够使用索引,需要避免出现如下场景:is null 和 ...
分类:
数据库 时间:
2014-08-14 10:34:28
阅读次数:
353
今天是在吾索实习的第26天。这天在处理数据库数据的时候发现了一个不错的语句就是Left Join,即左连接。 其功能是:即使右表中没有匹配,也从左表返回所有的行。也就是说,显示的行数与左表一致,且当右表没有相应数据时,会用NULL或0补上。如下: 如此类推,右连接Right Join亦然...
分类:
数据库 时间:
2014-08-14 01:26:47
阅读次数:
285
距离上一次教程又过去了将近一个多月,相信大家已经都将我上节课所说的东西所完全消化掉了。这节课就来点轻松的,说说libav的命令使用吧。注:遇到不懂的或者本文没有提到的可以用例如命令后加 --help full或者man 命令(man avconv)查看全部参数细节,或者进libav.org网站查:h...
分类:
其他好文 时间:
2014-08-13 21:39:37
阅读次数:
260
最近帮助客户调优的过程中,发现客户的TempDB存在非常大的压力,经过排查是发现某些语句对TempDB的巨量使用所导致。 在SQL Server中,TempDB主要负责供下述三类情况使用: 内部使用(排序、hash join、work table等) 外部使用(临时表,表变量等) 行版本控制(乐观并...
分类:
数据库 时间:
2014-08-13 17:56:46
阅读次数:
296
在10g中,可以使用以下几种方法创建备库控制文件
RMAN> backup current controlfile for standby format 'c:\ctl_%U';
RMAN> backup full database format 'c:\backup\full_%U' include current controlfile for standby;
RMAN> co...
分类:
数据库 时间:
2014-08-13 13:04:16
阅读次数:
249
在无网络或网络不发达的地方,只能离线安装,以下内容是根据自己离线安装过程记录下来的,不一定对所有人适用。手动以管理员身份顺序安装sqlncli.msi、Windows6.1-KB2506143-x64.msu、dotNetFx45_Full_setup.exe、Windows6.1-KB974405...
分类:
其他好文 时间:
2014-08-13 00:48:24
阅读次数:
244