码迷,mamicode.com
首页 > 其他好文 > 详细

hadoop常见问题收集

时间:2019-09-06 23:19:14      阅读:197      评论:0      收藏:0      [点我收藏+]

标签:命令记录   大量   mapred   enter   core   中断   响应   共享文件   退出   

hadoop 搭建 常用命令记录

快捷键安装在/user/local/bin目录下

  1. nano 文件名
    ctrl + k 剪切一行
    ctrl + o 保存并重命名,不重命名直接enter
    ctrl + x 退出
    ctrl + u 粘贴

  2. 启动: start-dfs.sh + start-yarn.sh
  3. hdfs 文件目录 root01的:/usr/local/centos/hadoophdfs 文件目录 root01的:/usr/local/centos/hadoop
  4. 修改hdfs文件目录的权限: hdfs dfs -chmod 777 /usr/local/centos/hadoop修改hdfs文件目录的权限: hdfs dfs -chmod 777 /usr/local/centos/hadoop
  5. hdfs 特点:
    • 支持大文件存储
    • 流式数据访问
    • 商用硬件【遇到故障不会明显感到中断,照样可以使用】
    • 低时间延迟的数据访问【几十毫秒以内的响应不适合hdfs上运行,可使用hbase】
    • 大量的小文件
    • 多用户写入, 任意修改文件【不支持多用户同时写入同一个文件】
  6. linux下打开eclipse , 在eclipse安装解压目录下, 用命令 ./eclipse & 打开

  7. hadoop
    • API
      Configuration //配置类 fs.defaultFS (file:///)
      FileSystem //抽象类
    • 核心配置文件
      core-site.xml //文件系统+本地临时目录 hadoop.tmp.dir
      hdfs-site.xml //relication = 3
      mapred-site.xml //yarn
      yarn-site.xml //rm
    • blocksize
      128m
      寻址时间 ~=10
      磁盘io速度= 100M/s
      寻址时间是读取时间的1%
    • centos
    • hadoop
      hadoop/share/hadoop/common|hdfs|yarn|mapred|../lib/jars
  8. window 与linux 之间共享文件夹目录, 可以存放文件共享并保持读写
    $ sudo mount -t cifs -o username=Jinc,password=ej //192.160.12.103/linux_share window_share
    注: linux下共享目录在 /usr/local/window_share , window下共享目录在E:/linux_share ,

  9. 查看hadoop文件 内容
    hadoop fs -text /usr/local/centos/hadoop/out_words/part-r-00000
  10. 复制文件到hadoop文件系统
    hadoop fs -put words /usr/local/centos/hadoop/words
  11. 运行mapreduce, 将java导出jar文件在hadoop上运行,并将结果输出到另一个地方【前路径是要加载的文件,后路径是要计算后输出的文件位置,这个位置不能存在】
    hadoop jar MR.jar cn.demo.WordCount /usr/local/centos/hadoop/words /usr/local/centos/hadoop/out_words
    另一种执行mapredce的方法: bin/yarn jar test_data/hdfs-project.jar /input /usr/local/hadoop/wsssss

  12. IntWritable , Text , LongWritable
  13. java中int = IntWritable .get(); new IntWritable(num);
  14. 注: mapreduce 又几个重写方法, map, reduce, setup, cleanup , 其中, 最先执行的是setup, 然后是map,reduce , 其次是cleanup 【这些都是内部类执行的顺序】

hadoop常见问题收集

标签:命令记录   大量   mapred   enter   core   中断   响应   共享文件   退出   

原文地址:https://www.cnblogs.com/eian/p/11478494.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!