码迷,mamicode.com
首页 > Web开发 > 详细

爬虫学习——网页解释器简介

时间:2017-07-07 18:17:07      阅读:204      评论:0      收藏:0      [点我收藏+]

标签:XML   表达式   soup   上下   使用   python   ima   blog   优点   

 

 

技术分享

 

一、Python的网页解析器

技术分享

 

  1. 正则表达式:将整个网页文档当作字符串,然后使用模糊匹配的方式,来提取出有价值的数据和新的url

  优点:看起来比较直观

  缺点:若文档比较复杂,这种解析方式会显得很麻烦

    2.html.parser:此为python自带的解析器

  3.lxml:第三方插件解析器,可解析html和xml网页

  4.Beautiful Soup:强大的第三方插件解析器,可使用html.parser和lxml解析器

其中正则表达式采用模糊匹配的表达方式;html.parser、lxml、Beautiful Soup采用结构化解析的方式

二、什么是结构化解析

将整个网页文档加载成一个DOM树,就是将文档转化为DOM树模型,以树的方式进行上下级的遍历和访问。

技术分享

 

爬虫学习——网页解释器简介

标签:XML   表达式   soup   上下   使用   python   ima   blog   优点   

原文地址:http://www.cnblogs.com/ryuuku/p/7133432.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!