搜索关键字：python、爬虫，搜索到2294个结果！码迷,mamicode.com！

现在，我们已经进入到大数据时代，在对数据进行处理分析时，首要的是需要有数据，而作为数据的一个重要来源则来自于网络爬虫，鉴于Python语言的简洁高效，以及对爬虫技术的大力支持，我们选择利用Python作...

分类：编程语言时间：2015-08-03 17:05:38 阅读次数：261

众所周知，很多网站都设置了登录之后才能获取查看页面的权利，因此模拟登录成了爬取信息的第一步，这一步成功了，嘿嘿，just do it! 好，废话不多说，直接说重点：首先，你应该要了解网站登录的流程以及你需要post的信息，以豆瓣为例：这就是你需要提交的信息了，包括用户名和密码，以及验证码和验证码的ID，看到这可能有人会想我怎么知道验证码的ID，各位放心，在页面加载时就已经到客户端这边来了，也就是说你可以直接从浏览器中看到，是不是很炫酷！第二步，需要了解一些requests这个库了，因为reque...

分类：编程语言时间：2015-08-03 14:42:55 阅读次数：183

python爬虫(四)--python正则表达式

在爬虫的学习过程中，又一个你必须要掌握的知识点就是正则表达式爬虫程序需要爬取你需要的东西，那么就对爬取的结果进行筛选，正则表达式就起到这样的作用如果你学过任何一门语言，相信你都会接触正则表达式。并且正则表达式大多相同。不管怎样，就像开头说的那样，因为这是爬虫基础教程。所以这篇文章要详细的说一下python的正则表达式。开始进入正题吧。正则表达式是一个特殊的字符序列，它能帮助你方...

分类：编程语言时间：2015-08-03 10:25:26 阅读次数：151

python爬虫(四)--python正则表达式

在爬虫的学习过程中，又一个你必须要掌握的知识点就是正则表达式爬虫程序需要爬取你需要的东西，那么就对爬取的结果进行筛选，正则表达式就起到这样的作用如果你学过任何一门语言，相信你都会接触正则表达式。并...

分类：编程语言时间：2015-08-03 09:02:05 阅读次数：504

批量下载百度贴吧帖子图片

总体功能：下载百度贴吧网页的图片这个例子延续了上一个抓取贴吧楼主发布内容的例子，上一个例子是把图片剔除掉了，这边重新做了一个下载图片的demo，比较简单。代码： # -*- encoding:utf-8 -*- # 下载贴吧的图片 import re import urllib import urllib2 #下载百度贴吧图片类 class DownloadIm...

分类：其他好文时间：2015-08-02 11:49:21 阅读次数：213

python爬虫(三)--Python的set()

如果你已经掌握了爬虫基础，看了我前面三个基础再来继续看这一篇文章。这篇文章主要讲解爬虫程序中必须要用到的python集合，如果你对集合很了解。那可以不用看。在爬虫程序中，为了不重复爬取已经爬过的页面，我...

分类：编程语言时间：2015-08-01 23:44:09 阅读次数：308

Python简单的爬虫

Python简单的爬虫最简单的爬虫# -*- coding : utf-8 -*- import urlliburl = 'http://www.baidu.com'html = urllib.urlopen(url)print html.read()也可以打印出网页的其他信息#获取状态码 print html.getcode()#获取传入的参数 print html.geturl()#获取网页的h...

分类：编程语言时间：2015-08-01 22:05:27 阅读次数：144

python爬虫(二)--了解deque

队列-deque 有了上面一节的基础，当然你需要完全掌握上一节的所有方法，因为上一节的方法，在下面的教程中会反复的用到。如果你没有记住，请你返回上一节。这一节我们要了解一种队列--deque。在下面的爬虫基础...

分类：编程语言时间：2015-08-01 19:19:09 阅读次数：186

python爬虫(二)--了解deque

队列-deque 有了上面一节的基础，当然你需要完全掌握上一节的所有方法，因为上一节的方法，在下面的教程中会反复的用到。如果你没有记住，请你返回上一节。 http://blog.csdn.net/passer_zzy/article/details/47156109 这一节我们要了解一种队列--deque。在下面的爬虫基础中，我们也要反复的使用deque，来完成网址的出队入队...

分类：编程语言时间：2015-08-01 19:07:46 阅读次数：131

Python爬虫基础(一)--简单的url请求

#encoding:UTF-8 import urllib import urllib.request # data是一个字典，然后通过urllib.parse.urlencode()将data转换为'wd = 904727147'的字符串 #最后和url合并为full_url # urllib.request是一个库,隶属urllib,urllib是一个收集了很多处理url的包，开放网址的可扩展...

分类：编程语言时间：2015-07-30 23:30:34 阅读次数：201

共2294条上一页 1 ... 211 212 213 214 215 ... 230 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)