本来用的api爬取的url失效了(可能是) 就换成了貌似切换不了清晰度的api接口 http://api.bilibili.com/playurl?aid=61735306&page=1&platform=html5 扔在项目里试试结果发现返回的是 { "code": 40000, "message ...
分类:
其他好文 时间:
2019-08-22 09:20:04
阅读次数:
614
恢复内容开始 requests库的7个主要方法 requests.request() 爬取网页的通用代码框架 连接有风险,异常处理很重要 robots协议 基本语法 #注释 *代表所有 / 代表根目录 user-agent: * Disallow: / 访问亚马逊网页商品 查看头部信息r.reque ...
分类:
编程语言 时间:
2019-08-21 00:20:22
阅读次数:
100
第一篇博客情景:前两天被大神打击到了,决定发奋自我,好好努力的学习技术 逛博客中看到有关python的实战题目,选了一道题目挑战一下自己 高德API+Python解决租房问题 该项目编写Python脚本爬取某租房网站的房源信息,利用高德的 js API 在地图上标出房源地点,划出距离工作地点1小时内 ...
分类:
其他好文 时间:
2019-08-20 09:11:23
阅读次数:
108
基于requests模块发起ajax的get请求 需求:爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据 用抓包工具捉取 使用ajax加载页面的请求 鼠标往下下滚轮拖动页面,会加载更多的电影信息,这个局部刷新是当前页面发起的ajax请求, 用抓包工具捉取页面 ...
分类:
编程语言 时间:
2019-08-20 01:23:58
阅读次数:
133
概念 爬虫: 自动获取网站数据的程序 反爬虫:使用技术手段防止爬虫程序爬取数据 误伤: 反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络再或者网络网络都是共享一个公共ip, 这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特 ...
分类:
其他好文 时间:
2019-08-19 22:54:00
阅读次数:
85
urllib基础 urlretrieve() urlretrieve(网址,本地文件存储地址) 直接下载网页到本地 urlcleanup() 清除缓存 info() 查看网页简介 getcode() 输出网页爬取状态码,200为正常,其他都不正常 geturl() 获取当前访问的网页的url 超时设 ...
分类:
编程语言 时间:
2019-08-19 19:31:12
阅读次数:
89
需求:爬取搜狗首页的页面数据 requests模块如何处理携带参数的get请求,返回携带参数的请求 需求:指定一个词条,获取搜狗搜索结果所对应的页面数据 之前urllib模块处理url上参数有中文的需要处理编码,requests会自动处理url编码 发起带参数的get请求 params可以是传字典或 ...
分类:
编程语言 时间:
2019-08-19 19:17:56
阅读次数:
121
redis分布式爬虫 概念:多台机器上可以执行同一个爬虫程序,实现网站数据的爬取 原生的scrapy是不可以实现分布式爬虫, 原因如下: 调度器无法共享 管道无法共享 scrapy-redis组件:专门为scrapy开发的一套组件。 该组件可以让scrapy实现分布式 pip install scr ...
分类:
其他好文 时间:
2019-08-19 14:38:01
阅读次数:
67
"首先,这个报错是告诉你,你的证书有问题. 其次,出现这个问题的原因,在于Python本身. 问题原因 Python升级到2.7.9以后,引入了一个新特性. 当使用urllib打开https的链接时,会检验一次ssl证书. 而当目标网站使用的是自签名证书时,就会抛出urllib2.URLError的 ...
分类:
编程语言 时间:
2019-08-19 12:45:13
阅读次数:
119
首先从东方财富网获取股票代码 再从网易财经下载股票历史数据 ...
分类:
其他好文 时间:
2019-08-19 11:15:17
阅读次数:
239