码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫模块之HTML解析模块

时间:2018-06-12 22:35:10      阅读:217      评论:0      收藏:0      [点我收藏+]

标签:class   IV   str   highlight   dem   比较   lis   就是   val   

这个就比较简单了没有什么好强调的,如果返回的json 就是直接按照键值取,如果是网页就是用lxml模块的html进行xpath解析。

from lxml import html
import json
class GetNodeList():
    def __init__(self):
        self.getdivxpath="//div[@class=‘demo‘]"
    def use_xpath(self,source):
        if len(source):
            root=html.fromstring(source) #html转换成dom对象
            nodelist=root.xpath(self.getdivxpath)#对dom对象进行xpath解析
            if len(nodelist):
                return nodelist
            return None
            
    def use_json(self, source,keyname):
        if len(source):
            jsonstr=json.loads(source)
            value=jsonstr.get(keyname) #根据具体的键值修改
            if len(value):
                return value
            return None

  

python爬虫模块之HTML解析模块

标签:class   IV   str   highlight   dem   比较   lis   就是   val   

原文地址:https://www.cnblogs.com/c-x-a/p/9175124.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!