码迷,mamicode.com
首页 >  
搜索关键字:python、爬虫    ( 2294个结果
Python爬虫之豆瓣-新书速递-图书解析
Python + lxml获取豆瓣新书信息(包括书名,作者,简介,url),将结果重定向到txt文本文件。
分类:编程语言   时间:2015-05-13 19:19:22    阅读次数:256
一个python爬虫小程序
起因深夜忽然想下载一点电子书来扩充一下kindle,就想起来python学得太浅,什么“装饰器”啊、“多线程”啊都没有学到。想到廖雪峰大神的python教程很经典、很著名。就想找找有木有pdf版的下载,结果居然没找到!!CSDN有个不完整的还骗走了我一个积分!!尼玛!!怒了,准备写个程序直接去爬廖雪...
分类:编程语言   时间:2015-05-13 18:52:31    阅读次数:147
2015-05-12 python爬虫学习
开始学习python,在网上找了一个扒糗事百科精华的爬虫,自己稍许的修改了一下,就可以正常的扒拉糗百精华,别人的代码不敢独占,就贴出来分享给大家,废话没有上代码: #?-*-?coding:?utf-8?-*-?? ??? ...
分类:编程语言   时间:2015-05-13 01:01:54    阅读次数:209
python爬虫抓取全国pm2.5的空气质量(BeautifulSoup3)
这个编码格式真的是很闹心啊,看来真的得深入学习一下编码格式,要不这各种格式错误。 这个编码还和编辑器有关系,最开始的时候实在sublime Text里编辑的代码,运行起来卡卡的,特别顺畅,但突然发现它不支持raw_input和input,所以令临时换到了python官方提供的idle中。之后就出现了各种奇葩编码错误。。。。。。 程序大概意思就是,你输入一个城市的拼音,它就会返回这个城市的空气污...
分类:编程语言   时间:2015-05-09 16:40:09    阅读次数:623
Python爬虫实战-爬取糗事百科段子
1.本文的目的是练习Web爬虫目标:1.爬去糗事百科热门段子2.去除带图片的段子3.获取段子的发布时间,发布人,段子内容,点赞数。2.首先我们确定URL为http://www.qiushibaike.com/hot/page/10(可以随便自行选择),先构造看看能否成功构造代码: 1 # -*- c...
分类:编程语言   时间:2015-05-08 21:51:04    阅读次数:196
使用python编写简单网络爬虫(一)
总算有时间动手用所学的python知识编写一个简单的网络爬虫了,这个例子主要实现用python爬虫从百度图库中下载美女的图片,并保存在本地,闲话少说,直接贴出相应的代码如下:-------------------------------------------------------------------------------------------#cod..
分类:编程语言   时间:2015-05-01 20:05:16    阅读次数:153
关于爬虫Demo的一点补充
上一篇简单的Demo确实实现了一些爬虫的功能。但是距真正的搜索引擎爬虫确实想去甚远。 1.首先下载URL时,大多是维护一个DNS服务器,找到相应的IP在进行下载网页。 2.维护URL队列时,上篇程序属于纵向的深度遍历,所以维护队列会越来越大,这算是比较大的bug了。解决方法起线程,或者每个页面只抓取一个URL。 3,关于URL抓取和种子URL写的也比较简陋,好吧,原谅他只是个Demo。urll...
分类:其他好文   时间:2015-04-29 23:34:54    阅读次数:330
Python第一个程序小爬虫
最近想上手Python。快速入门一门语言的方法就是写个小Demo。Python Demo必须是爬虫了。第一个小爬虫程序有些简陋,高手勿喷。关于爬虫主要分为三个部分:根据队列中的URL爬取界面、获取内容、保存结果。程序是以百度网站大全为种子URL,抓取页面中URL依次放入队列中,爬虫从URL队列依次取得新URL继续向外爬取。# -*- coding: utf-8 -*- import urllib2...
分类:编程语言   时间:2015-04-29 21:47:24    阅读次数:154
python抓取京东商城的商品名称和价格
突然心血来潮想抓一个京东的商品价格,突然发现网页的源码里没有价格这一项,只有商品的编号,网上说是显示的同事js从数据库里取出商品价格,放在页面上,那么我只能模拟请求了。哇咔咔,记得去你给京东投简历之后就没有然后了,难道就因为我也叫京东,你这也太浮夸了,给我幼小心灵造成创伤了。     原本要写一下creepy这个模块来抓取了,但今天时间不够了,明天还要上班。。。。明天再写那个模块吧,据说...
分类:编程语言   时间:2015-04-29 10:00:23    阅读次数:179
[python][爬虫]暴漫gif下载
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制#!/usr/bin/env python #! -*- coding: utf-8 -*- #图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif" style="width:460px" import urllib,urllib2 i...
分类:编程语言   时间:2015-04-26 13:53:49    阅读次数:160
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!