本来觉得没什么可写的,因为网上这玩意一搜一大把,不过爬虫毕竟是python的一个大亮点,不说说感觉对不起这玩意基础点来说,python2写爬虫重点需要两个模块,urllib和urllib2,其实还有re先介绍下模块的一些常用功能urllib.urlopen('http://xxx.xxx.xxx') ...
分类:
编程语言 时间:
2018-02-24 10:50:18
阅读次数:
169
前言 上一篇文章 python 爬虫入门案例 爬取某站上海租房图片 中有对headers的讲解,可能是对爬虫了解的不够深刻,所以老觉得这是一项特别简单的技术,也可能是简单所以网上对爬虫系统的文档,书和视频感觉都好少,故此准备接下这段时间对爬虫涉及到的点做个系统的学习与总结。 利用浏览器查看heade ...
分类:
编程语言 时间:
2018-02-11 10:51:13
阅读次数:
1309
1 import urllib.request # 连接网络 2 import urllib.parse # 爬虫传参数 3 import json # json解析结果 4 import re # 正则表达式 5 import math # 生成随机数 6 7 url = '' # 爬虫入口链接 ... ...
分类:
编程语言 时间:
2018-01-18 15:03:16
阅读次数:
134
1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中,我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子,先感受下它的风骚 我们利用了 urlopen方法访问了一个不存在的网址,运行结果如下: ...
分类:
编程语言 时间:
2018-01-06 12:16:52
阅读次数:
172
1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的 ...
分类:
编程语言 时间:
2018-01-04 18:13:34
阅读次数:
205
python2: Python 爬虫入门六之 Cookie 的使用 python3: Python3 网络爬虫 (六):Python3 使用 Cookie - 模拟登陆获取妹子联系方式 ...
分类:
编程语言 时间:
2017-11-16 20:50:29
阅读次数:
154
虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客。(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高。看到首页的推荐博客排行时,心里痒痒的,想想看看这些大佬究竟是写了什么文章这么受欢迎,可以被推荐。所以用Python抓取... ...
分类:
编程语言 时间:
2017-11-04 11:17:47
阅读次数:
198