码迷,mamicode.com
首页 > Web开发 > 详细

爬虫,可用于增加访问量和抓取网站全页内容

时间:2018-09-08 17:17:48      阅读:740      评论:0      收藏:0      [点我收藏+]

标签:opener   设置代理   url   获取   代理   cep   port   https   安装   

爬虫,可用于增加访问量和抓取网站全页内容

  • 爬虫道德规范:
    • 1.不让爬的咱不爬
    • 2.让爬的咱不能一直爬

使用爬虫提高文章访客说明:

# coding:utf-8
'''
使用爬虫提高文章访客说明:
1.本爬虫使用代理IP
2.伪装浏览器
3.粘贴地址即可使用
'''
from urllib import request,error

if __name__ == '__main__':

    # 将需要访问的地址替换下面地址
    url = "https://www.cnblogs.com/xpwi/"

    # 设置代理地址,代理IP一般20天左右会失效
    # 获取最新代理IP,参考文章:https://www.cnblogs.com/xpwi/p/9600727.html
    # 1.日本
    # proxy = {'http': '140.227.65.196:3128'}
    # 2.俄罗斯
    proxy = {'http': '94.242.59.135:1448'}

    # 2.创建ProxyHandler
    proxy_handler = request.ProxyHandler(proxy)
    # 3.创建Opener
    opener = request.build_opener(proxy_handler)
    # 4.安装Opener
    request.install_opener(opener)

    # 下面再进行访问url就会使用代理服务器
    # 更换浏览器型号,参照:https://www.cnblogs.com/xpwi/p/9600719.html
    try:
        req = request.Request(url)
        req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163")

        rsp = request.urlopen(req)

        html = rsp.read().decode()
        print("访问成功访客+1,以下是该网页的HTML:\n",html,"\n访问成功访客+1,以上是该网页的HTML\n")

    except error.HTTPError as e:
        print(e)

    except Exception as e:
        print(e)

更多文章链接:Python 爬虫随笔


  • 本笔记不允许任何个人和组织转载

爬虫,可用于增加访问量和抓取网站全页内容

标签:opener   设置代理   url   获取   代理   cep   port   https   安装   

原文地址:https://www.cnblogs.com/xpwi/p/9609701.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!