往大数据方向发展需要学哪些技术?网上一搜真是指不胜屈。对于小白来说,实在是一头雾水,到底哪些是当下流行的?哪些是必须要先学会的?流行?主次搞不清。为了解决这些疑惑,羚羊专门花了些时间, 挨个技术去研究对比归类,大概总结出以下的技术点: 文件存储: Hadoop HDFS、GFS、KFS、Tachyo ...
分类:
其他好文 时间:
2020-06-15 12:10:17
阅读次数:
249
不同的视频APP可能和不同公司的ADX有股份关系,甚至,有的视频APP做大了,可以用自己的ADX,那从app到ADX的数据可以直接对接,否则就要有合作,然后ADX对接广告投放引擎 广告投放引擎(也就是媒体服务器)对接多个媒体的数据, (从广告投放引擎,怎么将数据Flume到hdfs,这个不清楚) 这 ...
分类:
其他好文 时间:
2020-06-14 23:24:11
阅读次数:
133
概述 定义 HDFS是一个分布式文件管理系统 优缺点 优点 (1)高容错 多副本提高容错、某个副本丢失可以自动恢复 (2)适合处理大数据 ? 能处理PB级别数据、能处理百万的文件数据量 (3)可构建在廉价机器上 缺点 (1)不适合低时延数据访问 (2)无法高效存储小文件 (3)不支持并发写入和文件修 ...
分类:
其他好文 时间:
2020-06-14 20:26:42
阅读次数:
58
HDFS【shell操作hdfs命令】 上传 -help:输出这个命令参数 hadoop fs -help rm -moveFromLocal:从本地剪切粘贴到HDFS hadoop fs -moveFromLocal ./kongming.txt /sanguo/shuguo -copyFromL ...
分类:
系统相关 时间:
2020-06-14 18:55:11
阅读次数:
64
4个site.xml文件和 3个env.sh文件和1个slave文件 1,core-site.xml 2,hdfs-site.xml 3,mapred-site.xml 4,yarn-site.xml 5,hadoop-env.sh 6,mapred-env.sh 7,yarn-env.sh 8,s ...
分类:
其他好文 时间:
2020-06-14 17:07:49
阅读次数:
141
1,客户端通过Distributed FileSystem 向namenode请求下载文件,namenode 通过查找元数据,返回文件块所在datanode的地址。 2,客户端挑选一台datanode(按照就近原则,返回的块地址根据网络拓扑图排序,距离客户端进的排在前面)服务器,建立连接,请求读取数 ...
分类:
其他好文 时间:
2020-06-14 16:34:06
阅读次数:
59
1,客户端向nn请求上传文件,nn检查该文件和父目录是否存在。 2,nn返回响应给客户端,是否可以上传文件。 3,客户端向nn请求上传第一个块的dn的信息。 4,nn根据副本原则,返回给客户端块上传的dn节点信息。 5,客户端和dn1建立连接,请求上传数据,dn1接着和dn2建立连接,dn2和dn3 ...
分类:
其他好文 时间:
2020-06-14 16:31:06
阅读次数:
71
1. 用idea的maven项目 package 打包, 去 Linux 执行 spark-submit --class com.Spark_HDFS --master local ./SXC-1.0-SNAPSHOT.jar 遇到 找不到主类 , 这时候需要更加稳定的打包方式 去打包 scala ...
分类:
其他好文 时间:
2020-06-14 12:57:57
阅读次数:
127
package com.atguigu.java; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; impor ...
分类:
编程语言 时间:
2020-06-13 22:59:16
阅读次数:
76
一、HA概述 HA(High Available)即高可用(7*24小时不中断服务),实现高可用最关键的策略就是消除单点故障。HA严格地来说应该分成各个组件的HA机制,HDFS的HA和YARN的HA。 Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。NameNode ...
分类:
其他好文 时间:
2020-06-10 10:58:31
阅读次数:
72