一.新的问题与工具平时在淘宝上剁手的时候,总是会看到各种各样的模特。由于自己就读于一所男女比例三比一的工科院校……写代码之余看看美女也是极好的放松方式。但一张一张点右键–另存为又显得太过麻烦而且不切实际,毕竟图片太多了。于是,我开始考虑用万能的python来解决问题。我们先看看淘女郎页面的URL,https://mm.taobao.com/json/request_top_list.htm?page...
分类:
编程语言 时间:
2016-06-16 23:24:11
阅读次数:
1082
环境:Mac OSX 终端工具:iTerm2 1. 例 显示baidu源码 2. 有关headers #爬虫中添加headers为了模拟浏览器的工作,否则有的页面不允许直接访问# MacOS下查看headers方法: Chrome:视图-开发者-开发者工具,右侧点击Network,然后单击url(b ...
分类:
编程语言 时间:
2016-05-20 13:12:20
阅读次数:
168
之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求。 一、headers的获取 就以博客园的首页为例:http://www.cnblogs.com/ 打开网页,按下F12键,如下图所示: 点击下方标签中的Network,如下: 之后再点击下图 ...
分类:
编程语言 时间:
2016-05-17 21:09:31
阅读次数:
214
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三、爬虫的基本操作与流程 一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据、信息; 2.将数据或信息存入数据库中; 3.数据展示,即在Web端进行显示,并有自己的分析说明。 这次我先介绍第一 ...
分类:
编程语言 时间:
2016-05-16 12:25:34
阅读次数:
130
爬虫两种方式--宽度优先和带偏好爬虫先复习下上次学了什么:URL和URI的结构组成根据指定网址爬取网站内容(get方式和post方式)上一日记中学到了抓取单个页面内容的方法,但实际项目中则需要爬虫遍历互联网,把互联网中相关的页面都抓取回来。那么爬虫是怎样遍历互联网,把页面..
分类:
编程语言 时间:
2016-04-26 16:09:09
阅读次数:
247
理解URL一、URI什么是uri?web上每种可用资源,如html文档、图像、视频、程序等都是由一个通用资源标志符URI(UniversalResourceIdentifer)进行定位。URI通常由三部分组成:访问资源的命名机制;存放资源的主机名;资源自身的名称,由路径表示。如下面的URI:http://www.webmo..
分类:
其他好文 时间:
2016-04-22 21:05:54
阅读次数:
305
本文主要是记录一下学习过程,相当于做一次笔记吧 主要参考崔庆才的Python爬虫学习系列教程(http://cuiqingcai.com/1052.html) 这里主要是一些Python的基础知识和爬糗事百科的一个实例: 一:基础知识 1.爬虫:趴在网络上的蜘蛛,遇见想要的资源,就会抓取下来。 2. ...
分类:
编程语言 时间:
2016-03-31 23:23:36
阅读次数:
229
转自:http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会
分类:
编程语言 时间:
2016-02-29 21:34:01
阅读次数:
146
以下是小白的爬虫学习历程中遇到并解决的一些困难,希望写出来给后来人,如有疏漏恳请大牛指正,不胜感谢! 首先,我的代码是这样的 1 2 3 import requests 4 5 url = 'http://www.acfun.tv/' 6 html = requests.get(url) 7 8 p
分类:
编程语言 时间:
2016-02-15 00:51:31
阅读次数:
330