大数据技术板块划分 数据采集 flume kafka logstash filebeat ... 数据存储 mysql redis hbase hdfs ... 虽然mysql不属于大数据范畴 但是我在这也列出来了,因为你在工作中离不开它 数据查询 hive impala elasticsearch ...
分类:
其他好文 时间:
2021-03-17 14:04:41
阅读次数:
0
1、为什么要引入Yarn和Spark。 (1)现有的hadoop生态系统中存在的问题 1)使用mapreduce进行批量离线分析; 2)使用hive进行历史数据的分析; 3)使用hbase进行实时数据的查询; 4)使用storm进行实时的流处理; (2)选用spark的原因 1) 应用于流式计算的S ...
分类:
其他好文 时间:
2021-03-16 13:32:12
阅读次数:
0
设置metastore 机器: ke01、ke02、ke03、ke04 ke03 为元数据库 ke01、ke02、ke04 连接到元数据库 、 hive-metastore搭建 ke03: <configuration> <property> <name>hive.metastore.warehou ...
分类:
数据库 时间:
2021-03-12 13:42:56
阅读次数:
0
1.union 和 union all 前者可以去重 select sex,address from test where dt='20210218' union all select sex,address from test where dt='20210218'; + + +--+ | sex ...
分类:
其他好文 时间:
2021-03-08 14:17:52
阅读次数:
0
create table customer row format SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'stored as inputformat 'org.apache.hadoop.hive.ql.io.avro.AvroCont ...
分类:
其他好文 时间:
2021-03-03 12:21:19
阅读次数:
0
大数据概述 一.用图表描述Hadoop生态系统的各个组件及其关系。 Hadoop生态系统除了核心的HDFS和MapReduce以外,Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。 (1).HDFS:具有处理超 ...
分类:
其他好文 时间:
2021-03-03 12:14:24
阅读次数:
0
1.用图表描述Hadoop生态系统的各个组件及其关系。 Hadoop生态系统除了核心的HDFS和MapReduce以外,Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。 (1).HDFS:具有处理超大数据、流式 ...
分类:
其他好文 时间:
2021-03-02 12:28:59
阅读次数:
0
vim sqoop-env.sh export HADOOP_HOME=/apps/hadoop export HADOOP_MAPRED_HOME=/apps/hadoop export HIVE_HOME=/apps/hive export ZOOKEEPER_HOME=/apps/zookee ...
分类:
其他好文 时间:
2021-03-02 12:20:39
阅读次数:
0
继承的本质是对某一批类的抽象,从面实现对现实世界更好的建模. extends的意思是"扩展".子类是父类的扩展. JAVA中类只有单继承,没有多继承! 继承是类和类之间的一种关系.除此之外,类和类之间的关系还有依赖,组合,聚合等. 继承关系的俩个类,一个为子类(派生类,),一个为父类(基类).子类继 ...
分类:
编程语言 时间:
2021-02-27 13:29:46
阅读次数:
0
pyspark有个bug, 虽然下面代码写了 write.mode("overwrite")但是不生效 spark.conf.set("hive.exec.dynamic.partition.mode", "constrict") db_df.repartition(1).write.mode("o ...
分类:
其他好文 时间:
2021-02-23 14:14:20
阅读次数:
0