从hadoop 中删除匹配指定字符串的任务

时间：2015-03-19 22:02:07 阅读：129 评论：0 收藏：0 [点我收藏+]

我们都知道如果使用

hadoop job -list

获取当前正在运行的hadoop 任务，返回的结果如下:

技术分享

返回的任务中不包括任务的名称, 但是通过hadoop 管理页面是可以查看到job 的名称的。

技术分享

但是现实情况是我们可能需要根据任务的名称来删除任务。

我的实现方案是这样的

1. 通过获取 http://192.168.1.100:50030/jobtracker.jsp 网页

2. 解析网页获取任务名称 + job_id 的任务列表

3. 过滤出指定名称的job

4. 最后调用hadoop job -kill <job_id> 来杀死任务

代码如下:

parse.py 使用python 自带的html 解析模块

from HTMLParser import HTMLParser

class MyHTMLParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
#         self.current_tag = None
        self.flag = False
        self.name_flag = False

    def handle_starttag(self, tag, attrs):
        if tag == 'td':
            for name,value in attrs:
                if name == 'id' and value.startswith("job_"):
                    self.flag = True
                    self.name_flag = False
                    break
                elif name == 'id' and value.startswith("name_"):
                    self.flag = True
                    self.name_flag = True
                    break

    def handle_endtag(self, tag):
        self.flag = False

    def handle_data(self, data):
        if self.flag:
            print data,
            if self.name_flag:
                print ' '

if __name__ == '__main__':
    fp = open("./jobtracker.jsp")
    data = fp.read()
    my = MyHTMLParser()
    my.feed(data)

主程序 kill_job.sh

用shell 实现

# 过滤待删除的任务
keyword=$1
if [ -z "$keyword" ] ; then
    echo "参数不能为空"
    echo "用法: bash kill_job.sh <keyword> "
    exit
fi
curl -O http://192.168.1.100:50030/jobtracker.jsp

python parse.py | grep $keyword |sort| tee job.tmp

echo "---------------- start kill -------------------"
# 执行删除动作
cat ./job.tmp |sort| while read LINE
do
    #echo $LINE
    job_id=`echo $LINE|awk -F " " '{print $1}'| tr -d ' '`
    echo "kill job -- ${job_id}"
    hadoop job -kill "$job_id"
done

执行方法:

bash kill_job.sh merge_sl

merge_sl 是job 的名称

完整代码地址：

https://github.com/vearne/del_hadoop_job

从hadoop 中删除匹配指定字符串的任务

标签：hadoop job python

原文地址：http://blog.csdn.net/woshiaotian/article/details/44464939

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行