码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫-01

时间:2019-01-04 15:31:49      阅读:227      评论:0      收藏:0      [点我收藏+]

标签:font   lex   架构组成   pytho   crawler   数据库   网页   log   推荐   

Python爬虫-01

1.爬虫是什么

维基百科介绍:網路蜘蛛(Web spider)也叫网络爬虫(Web crawler)1,蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种「自動化瀏覽網路」的程式,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。

2.入门必须

  • python的基础使用:基于python3.6.5版本
  • 正则表达式:在解析网页的时候,偶尔会遇到使用正则表达式的情况,你至少要知道什么叫做正则表达式。技术分享图片
  • HTML:简要的HTML文档结构。推荐http://www.w3school.com.cn/
  • HTTP(超文本传输协议):推荐图解HTTP,下载地址http://down.51cto.com/data/1979859
  • 数据库:需了解SQL&NoSQL的概念。

3.爬虫架构

架构组成

技术分享图片

  • URL管理器:管理待爬取的url集合和已爬取的url集合,传送待爬取的url给网页下载器,防止重复抓取以及循环抓取。
  • 网页下载器(urllib):爬取url对应的网页,存储成字符串,传送给网页解析器。
  • 网页解析器(BeautifulSoup):解析出有价值的数据,存储下来,同时补充url到URL管理器。

URL管理器

技术分享图片

网页下载器(urllib)

将互联网上URL对应的网页下载到本地的工具。python网页下载器有urlilib和requests。
urllib支持功能:1.支持直接url下载;2.支持向网页直接输入的数据;3.支持需要登陆网页的cookie处理;4.需要代理访问的代理处理。python 3.x 以上版本揽括了 urllib2,把urllib2 和 urllib 整合到一起,只有 import urllib,同时用urllib.request 模块 代替 urllib2。

并且引入模块变成一个,只有 import urllib

网页解析(BeautifulSoup)

为了实现解析器,可以选择使用正则表达式、html.parser、BeautifulSoup、lxml等,这里我们选择BeautifulSoup。
其中,正则表达式基于模糊匹配,而另外三种则是基于DOM结构化解析。
技术分享图片


总结:介绍爬虫的概念,基础知识,同时还对python架构组成做了汇总,接下来正式进入爬虫的世界!!!

爬虫-01

标签:font   lex   架构组成   pytho   crawler   数据库   网页   log   推荐   

原文地址:https://www.cnblogs.com/ghauoa/p/10219947.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!