标签:作者 集群 bsp 运行 red apr 出版社 结构 建议
Hive是个啥?
用类似sql语句实现对分布式存储系统的数据读写、管理功能。
HIVE特点
1.使用类sql语句分析大数据,避免MapReduce程序分析数据
2.数据存储在HDFS上,不是HIVE上
3.Hive将数据映射成数据库和一张张表,库和表的元数据信息一般存在关系型数据库。
元数据:描述数据的数据
举例:
比如一本书,书的书名、isbn号、作者、出版社、目录等信息就是一本书的元数据。
元数据的分类:
描述性元数据:描述对象的基本信息。
结构性元数据:描述对象的内部结构和关系。
管理性元数据:记录有助于管理对象的信息。
参考性元数据:描述了统计数据的内容和质量。
统计性元数据:描述收集,处理或产生统计数据过程
构造元数据:
使用“词汇表”构造语句。词汇表根据明确的行业标准构造。
元数据语法:
一般建议的方法
1.主语-谓词-对象
2.类-属性-值
hive的底层存储:
hive的数据是存储在HDFS上,hive中的库和表可以看作是对HDFS上数据的一个映射。所以hive必须运行在一个hadoop集群。
hive语句背后的执行过程:
hive中的执行器,将最终要要执行的MapReduce程序放到YARN上以一系列job进行执行。
YARN是啥?
hadoop的一个资源管理系统。
标签:作者 集群 bsp 运行 red apr 出版社 结构 建议
原文地址:https://www.cnblogs.com/liuguangshou123/p/13291893.html