码迷,mamicode.com
首页 >  
搜索关键字:python、爬虫    ( 2294个结果
一个简单的python爬虫,以豆瓣妹子“http://www.dbmeizi.com/category/2?p= ”为例
本想抓取网易摄影上的图,但发现查看html源代码时找不到图片的url,但firebug却能定位得到。(不知道为什么???)目标是抓取前50页的爆乳图,代码如下:import urllib2,urllib,re,os'''http://www.dbmeizi.com/category/2?p=%'''...
分类:数据库   时间:2014-10-01 21:26:21    阅读次数:312
python 3.4 爬虫,伪装浏览器(403 Forbidden)
在使用python抓取网页图片的时候,偶尔会遇到403错误。这可能是因为服务器禁止了爬虫。这种情况下如果想继续爬取图片的时候,就需要在请求中加入header信息,伪装成浏览器。如果你使用的是python3.4版本,那么如果你想在网上找到在请求中加入header的方法,估计要费些周折。经过一番实验,确...
分类:编程语言   时间:2014-09-24 18:32:07    阅读次数:378
Python爬虫抓取csdn博客
昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。 为了解析抓取的网页,用到了第三方模块,BeautifulSoup,这个模块对于解析html文件非常有用,当然也可以自己使用正则表达式去解析,但是比较麻烦。 由于csdn网站的robots.txt文件中显示禁止任何爬虫,所以必须把爬虫伪装成浏览器,而且不能频繁抓取,得sleep一会再抓,使用频繁会...
分类:编程语言   时间:2014-09-19 13:57:15    阅读次数:284
grep命令和curl命令的使用方法
今天看了汪海写的python爬虫教程,说实话看不懂。。。于是就用bash下的工具自己开始写了一个抓取糗事百科的糗事的脚本,期间搜索到了grep和curl命令的一些使用技巧。grep命令,使用grep命令来进行文本的通配,一般只是显示匹配的行,但是使用以下几个参数就可以显示上下文了:-C [num] ...
分类:其他好文   时间:2014-09-12 23:19:24    阅读次数:665
[python]利用urllib+urllib2解决爬虫分页翻页问题
最近由于公司的自动化测试工具需要将测试结果导出到excel中,奈何没有学SSH,导致无法在工具本身中添加(工具是开发做的),故转而使用python爬虫来做,开发过程中遇到了一个问题: 由于测试结果太多,需要翻页,而翻页时网址没有变化,这就导致抓取的时候没法依照网址去爬,遂去网上查找解决方法,最后找....
分类:编程语言   时间:2014-08-30 11:07:39    阅读次数:4116
博客地图
七日python之路 七日python -- 第一天 七日python -- 第二天 ... scrapy爬虫 python爬虫----(1. 基本模块) ... pytnon基础 python基本 -- threading多线程模块的使用 python基本 -- mysql 的使用...
分类:其他好文   时间:2014-08-23 04:38:50    阅读次数:171
python爬虫----(6. scrapy框架,抓取亚马逊数据)
利用xpath()分析抓取数据还是比较简单的,只是网址的跳转和递归等比较麻烦。耽误了好久,还是豆瓣好呀,URL那么的规范。唉,亚马逊URL乱七八糟的.... 可能对url理解还不够. amazon ├──?amazon │??...
分类:编程语言   时间:2014-08-22 05:03:45    阅读次数:3369
Python爬虫(一)
Python 爬虫...
分类:编程语言   时间:2014-08-21 17:22:14    阅读次数:463
python爬虫----(5. scrapy框架,综合应用及其他)
在分析和处理选择内容时,还需注意页面的JS可能会修改DOM树结构。 (一)GitHub的使用 ????由于之前使用Win,没使用过shell的。目前只是了解。以后再补充。找到几个不错的教程 ? ? ????GitHub超...
分类:编程语言   时间:2014-08-21 09:55:44    阅读次数:251
python爬虫----(4. scrapy框架,官方文档以及例子)
官方文档: http://doc.scrapy.org/en/latest/ ??? github例子: https://github.com/search?utf8=%E2%9C%93&q=scrapy ????剩下的待会再整理...... 买饭去......?????? --2014年08月20日19:...
分类:编程语言   时间:2014-08-20 19:45:13    阅读次数:243
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!