码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫2------爬虫屏蔽手段之代理服务器实战

时间:2018-05-16 15:22:16      阅读:178      评论:0      收藏:0      [点我收藏+]

标签:png   获取信息   屏蔽   handler   int   3.1   服务器   color   return   

 

 

1、代理服务器:

一个处于客户端与互联网中间的服务器,如果使用代理服务器,当我们浏览信息的时候,先向代理服务器发出请求,然后由代理服务器向互联网获取信息,再返回给我们。

技术分享图片

 

2、代码:

import urllib.request
#proxy_addr="117.36.103.170:8118",为代理服务器的IP和端口
#url为要爬取数据的地址
def use_proxy(url,proxy_addr):
    #采用ProxyHandler函数来设置代理服务器,函数参数为字典,字典的键为"http",值为代理服务器的IP地址,IP地址和端口可以在www.xicidaili.com中找。
    proxy=urllib.request.ProxyHandler({"http":proxy_addr})
    #建立opener,bulid_opener的第一个参数为proxy,第二个参数固定为urllib.request.HTTPHandler
    opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
    #将opener设置为全局,下面的操作就可以运用该opener了。
    urllib.request.install_opener(opener)
    data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
    return data

proxy_addr="125.118.79.44:6666"
url="http://www.baidu.com"
data=use_proxy(url,proxy_addr)
print(len(data))

 

Python爬虫2------爬虫屏蔽手段之代理服务器实战

标签:png   获取信息   屏蔽   handler   int   3.1   服务器   color   return   

原文地址:https://www.cnblogs.com/Lee-yl/p/9045454.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!