码迷,mamicode.com
首页 > 其他好文 > 详细

lxml.etree去除子节点

时间:2015-12-14 20:58:49      阅读:452      评论:0      收藏:0      [点我收藏+]

标签:

去除etree中的某个子节点有两种方法:

1、parentnode.remove(node)

2、etree.strip_elements(html, ‘element_name‘, with_tag=True/False)

但是在实际使用的时候如果要删除的node.tail不为空,则会把node.tail也删除掉,导致不必要的丢失,解决办法如下:

            parent = node.getparent()
                if parent is not None:
                    parent_text = re.sub(‘\s‘, ‘‘, get_child_text(parent))
                    text = node.tail if anchor.tail else ‘‘
                    previous = node.getprevious()
                    if previous is not None:
                        previous.tail = (previous.tail or ‘‘) + text 
                    else:
                        parent.text = (parent.text or ‘‘) + text 
                    parent.remove(node)
                    break            

 通过在前序节点中保留node.tail,可以在删除node的同时,保留node.tail的内容。

lxml.etree去除子节点

标签:

原文地址:http://www.cnblogs.com/chybot/p/5046258.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!