短网址,顾名思义就是在形式上比较短的网址。 还记得前几天发文章回复关键词槽边往事吗,出来的那个网址就是短网址。 先简单说一下短网址原理,按照我的理解就是网址的中转站,点击短网址,经过服务器分析转向到原网址。 很多公众号上面回复关键词返回的网站都是使用的短网址,这是因为微信的文章链接太长了,能占屏幕的 ...
分类:
其他好文 时间:
2020-04-29 18:34:48
阅读次数:
184
import urllib.request # r=urllib.request.urlopen("http://183.247.167.54:7009/#/map") # print(r.read())#爬取网页源码 r=urllib.request.urlopen("http://183.247 ...
分类:
Web程序 时间:
2020-04-29 18:02:09
阅读次数:
66
无需参数直接请求单个页面 import urllib from urllib.request import request from urllib.urlopen import urlopen # import urllib2 import requests # 使用 urllib 方式获取 res ...
分类:
编程语言 时间:
2020-04-28 22:52:43
阅读次数:
47
用python也差不多一年多了,python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。1、基本抓取网页get方法importurllib2url"http://www.baidu.com"respons=urllib2.urlopen(url)pr
分类:
编程语言 时间:
2020-04-23 12:01:50
阅读次数:
90
注意更改路径 1 import os 2 import requests 3 from lxml import etree 4 from urllib.request import urlopen, Request 5 import time 6 7 class BiAnImage(): 8 def ...
分类:
其他好文 时间:
2020-04-15 13:37:23
阅读次数:
62
Urllib库详解 什么是Urllib: Python内置的HTTP请求库 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url 解析模块 urlopen url 传入url data 用于POST提交数据 timeout 设置最大响应接受 ...
分类:
Web程序 时间:
2020-04-09 20:20:59
阅读次数:
89
错误原因:主要是由于该网站禁止爬虫导致的,可以在请求加上头信息,伪装成浏览器访问User-Agent。 新增user-agent信息: headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537 ...
分类:
编程语言 时间:
2020-04-05 13:22:44
阅读次数:
122
[toc] 很多网站会监测一段时间内某个IP访问的次数(通过数据流量和日志等),如果访问的次数多的不像正常人,它就会把这个IP地址封了。所以我们就需要设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬。 常用的代理服务器: 西刺免费代理IP:https://www.x ...
分类:
编程语言 时间:
2020-03-25 19:39:40
阅读次数:
75
1 from urllib import request 2 from urllib import request 3 4 5 #保存请求返回的数据,retrieve取回,检索数据 6 resp1 = request.urlretrieve('http://www.baidu.com','baidu ...
分类:
Web程序 时间:
2020-03-16 21:55:27
阅读次数:
84
from urllib import request from urllib import parse #1.读取网页 url="http://www.baidu.com" resp=request.urlopen(url) # print(resp.getcode())#获取响应码 # print ...
分类:
Web程序 时间:
2020-03-11 10:55:39
阅读次数:
79