码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫

时间:2017-12-05 20:06:03      阅读:193      评论:0      收藏:0      [点我收藏+]

标签:官网   内容   tpc   用户登录   net   读取内容   proc   pass   request对象   

详细资料可以看慕课网:https://www.imooc.com/video/10690

一:爬虫

    一段自动抓取互联网信息的程序

    爬虫从一个url出发,访问所有的url,并且从每个页面提取,所需要的有价值的数据

     价值:比如我也做一个美女网,把网上所有的美女图片放在一个网站上。

二:简单爬虫架构:

    1: 爬虫调度段

    2:Url管理器:从管理器中可以取到一个待爬取的url。将其传送给网页下载器

   3:网页下载器:网页下载器会将url指定的网页下载下来存储成一个字符串,将这个字符串传送给网页解析器

   4:网页解析器:网页解析器会将这个字符串解析。会解析出有价值的数据和指向其他网页的url,这些url可以再补充给url管理器。他们会组成一个循环,只要有url就会一直循环下去

三:爬虫架构运行流程:

      调度器:调度器会询问有没有url管理器,有没有要爬取的Url,如果有,将这个url传送给下载器。

      管理器:返回是和否,如果是,返回一个待爬取的url。

      下载器:下载器得到url,会根据内容下载,下载好后,将内容返回给调度器,调度器会将内容再传送给解析器

      解析器:解析器解析后,会将价值数据和新的url列表,返回给调度器,此时调度器会做两件事:第一将价值数据传送给应用,进行数据的收集,第二会将新的url列表补充到url管理器,以此循环,直到所有的url都爬取完。

     最后调度器会将应用的方法,进行输出,将价值数据输出到我们需要的格式

四:url管理器

     url管理器管理待抓取的url集合,和已抓取的url集合,对url管理是为了防止重复抓取,和循环抓取

      url会做两个判断:

                   在将新的url添加到爬取集合中时,会判断待添加url是否在容器中。

                   判断是否还有待爬取的url

      最后url爬取完,会将这个url移动到已爬取集合

五:url管理器实现方式

      1:如果采用python语言,选用set集合,set集合可以去除重复的元素

      2:关系型数据库:如myslq

      3:缓存数据库:如redis

六:网页下载器(核心)

     网页下载器是将互联网上的url对应的网页下载到本地的工具,类似于浏览器

     他将url对应的网页以html的格式存储到本地文件或内存字符串

     python下载器:urllib2。python官网基础模块,他支持直接的url下载,还支持登录网页的cookie处理,需要代理访问的代理处理

    request:python第三方插件

七:  urlib2介绍:urllib2有三种下载网页的方法

              1:将url传送给urllib2.urlopen(url),返回的内容传送给response对象。  response= urllib2.urlopen(request),然后用response的response.code方法,返回一个状态码,根据状态码判断是否成功。同时可以使用responde的responde.read()方法读取内容。

                          import urllib2
                          import cookielib

                        url = "http://www.baidu.com"
                        print ‘第一种方法‘
        response1 = urllib2.urlopen(url)
        print response1.getcode()
        cont = response1.read()

              2:添加data,httpheader。现在就有了三个参数,将这三个参数传给urllib2的urllib.request方法,返回一个request对象,然后仍然使用response= urllib2.urlopen(request)

       例:import urllib2

                             values = {"username":"1016903103@qq.com","password":"XXXX"}
                             data=urllib.urlopen(values)
                             url="https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
                             request=urllib2.Request(url,data)
                             response= urllib2.urlopen(request)
                             print response.read()

              3:添加特殊情境的处理器:

                  因为有些网页需要用户登录才能访问,我们需要添加cookie的处理,那现在可以使用HTTOPCookieProcessor。如果是需要代理的网页则使用:ProxyHandler。

                  如果是使用https加密访问的则使用:HTTPSHandler

                 最后将这些handler传送给urllibl2.build.opener(handler)方法,返回一个opener对象,然后urllib2.install_opener(opener),然后继续使用urllib2.urlopen(request)方法

       import urllib2
       import cookielib

      #创建cookie容器
      cj = cookielib.CookieJar()

      #创建一个opener
      opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

      #给urllib2安装opener
      urllib2.install_opener(opener)
      #使用待cookie的urllib2访问网页
      response = urllib2.urlopen("http://www.baidu.com")

 

 

python爬虫

标签:官网   内容   tpc   用户登录   net   读取内容   proc   pass   request对象   

原文地址:http://www.cnblogs.com/panshujun/p/7988976.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!