码迷,mamicode.com
首页 >  
搜索关键字:python、爬虫    ( 2294个结果
Python爬虫入门一之综述
现在,我们已经进入到大数据时代,在对数据进行处理分析时,首要的是需要有数据,而作为数据的一个重要来源则来自于网络爬虫,鉴于Python语言的简洁高效,以及对爬虫技术的大力支持,我们选择利用Python作...
分类:编程语言   时间:2015-08-03 17:05:38    阅读次数:261
Python爬虫之模拟登录豆瓣获取最近看过的电影
众所周知,很多网站都设置了登录之后才能获取查看页面的权利,因此模拟登录成了爬取信息的第一步,这一步成功了,嘿嘿,just do it! 好,废话不多说,直接说重点: 首先,你应该要了解网站登录的流程以及你需要post的信息,以豆瓣为例: 这就是你需要提交的信息了,包括用户名和密码,以及验证码和验证码的ID,看到这可能有人会想我怎么知道验证码的ID,各位放心,在页面加载时就已经到客户端这边来了,也就是说你可以直接从浏览器中看到,是不是很炫酷! 第二步,需要了解一些requests这个库了,因为reque...
分类:编程语言   时间:2015-08-03 14:42:55    阅读次数:183
python爬虫(四)--python正则表达式
在爬虫的学习过程中,又一个你必须要掌握的知识点就是正则表达式 爬虫程序需要爬取你需要的东西,那么就对爬取的结果进行筛选,正则表达式就起到这样的作用 如果你学过任何一门语言,相信你都会接触正则表达式。并且正则表达式大多相同。 不管怎样,就像开头说的那样,因为这是爬虫基础教程。所以这篇文章要详细的说一下python的 正则表达式。开始进入正题吧。 正则表达式是一个特殊的字符序列,它能帮助你方...
分类:编程语言   时间:2015-08-03 10:25:26    阅读次数:151
python爬虫(四)--python正则表达式
在爬虫的学习过程中,又一个你必须要掌握的知识点就是正则表达式 爬虫程序需要爬取你需要的东西,那么就对爬取的结果进行筛选,正则表达式就起到这样的作用 如果你学过任何一门语言,相信你都会接触正则表达式。并...
分类:编程语言   时间:2015-08-03 09:02:05    阅读次数:504
批量下载百度贴吧帖子图片
总体功能:下载百度贴吧网页的图片 这个例子延续了上一个抓取贴吧楼主发布内容的例子,上一个例子是把图片剔除掉了,这边重新做了一个下载图片的demo,比较简单。 代码: # -*- encoding:utf-8 -*- # 下载贴吧的图片 import re import urllib import urllib2 #下载百度贴吧图片类 class DownloadIm...
分类:其他好文   时间:2015-08-02 11:49:21    阅读次数:213
python爬虫(三)--Python的set()
如果你已经掌握了爬虫基础,看了我前面三个基础再来继续看这一篇文章。 这篇文章主要讲解爬虫程序中必须要用到的python集合,如果你对集合很了解。那可以不用看。 在爬虫程序中,为了不重复爬取已经爬过的页面,我...
分类:编程语言   时间:2015-08-01 23:44:09    阅读次数:308
Python简单的爬虫
Python简单的爬虫最简单的爬虫# -*- coding : utf-8 -*- import urlliburl = 'http://www.baidu.com'html = urllib.urlopen(url)print html.read()也可以打印出网页的其他信息#获取状态码 print html.getcode()#获取传入的参数 print html.geturl()#获取网页的h...
分类:编程语言   时间:2015-08-01 22:05:27    阅读次数:144
python爬虫(二)--了解deque
队列-deque 有了上面一节的基础,当然你需要完全掌握上一节的所有方法,因为上一节的方法,在下面的教程中 会反复的用到。 如果你没有记住,请你返回上一节。 这一节我们要了解一种队列--deque。在下面的爬虫基础...
分类:编程语言   时间:2015-08-01 19:19:09    阅读次数:186
python爬虫(二)--了解deque
队列-deque 有了上面一节的基础,当然你需要完全掌握上一节的所有方法,因为上一节的方法,在下面的教程中 会反复的用到。 如果你没有记住,请你返回上一节。 http://blog.csdn.net/passer_zzy/article/details/47156109 这一节我们要了解一种队列--deque。在下面的爬虫基础中,我们也要反复的使用deque,来完成网址 的出队入队...
分类:编程语言   时间:2015-08-01 19:07:46    阅读次数:131
Python爬虫基础(一)--简单的url请求
#encoding:UTF-8 import urllib import urllib.request # data是一个字典,然后通过urllib.parse.urlencode()将data转换为'wd = 904727147'的字符串 #最后和url合并为full_url # urllib.request是一个库,隶属urllib,urllib是一个收集了很多处理url的包,开放网址的可扩展...
分类:编程语言   时间:2015-07-30 23:30:34    阅读次数:201
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!