Python爬虫Csdn系列II
By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。
说明:
在上一篇文章中,我们已经知道了只要将程序伪装成浏览器就能访问csdn网页。在这篇文章中,我们将设法获取某个csdn用户的所有文章的链接。
分析:
打开一个某一个的csdn用户的的专栏...
分类:
编程语言 时间:
2015-04-10 17:57:46
阅读次数:
225
"""
文本处理是当下计算机处理的主要任务,从文本中找到某些有用的信息,
挖掘出某些信息是现在计算机程序大部分所做的工作。而python这中轻量型、小巧的语言包含了很多处理的函数库,
这些库的跨平台性能很好,可移植性能很强。
在Python中re模块提供了很多高级文本模式匹配的功能,以及相应的搜索替换对应字符串的功能。
"""
"""
正则表达式符号和特殊字符
re1|re...
分类:
编程语言 时间:
2015-04-09 23:52:08
阅读次数:
316
Python爬虫Csdn系列I
By 白熊花田(http://blog.csdn.net/whiterbear)
说明:
我会在这个系列介绍如何利用python写一个csdn爬虫,并将给定的Csdn用户的博客的所有文章保存起来。嗯,实用性貌似不是很大,写着玩,这个系列后,会有更好玩的更高级的爬虫出现。
原因:
本来想学cooki...
分类:
编程语言 时间:
2015-04-09 19:51:14
阅读次数:
160
第二部分抽取起始页中进入宝贝详情页面的链接创建项目,并生成spider模板,这里使用crawlspider。2.在中scrapyshell中测试选取链接要使用的正则表达式。首先使用firefox和firebug查看源码,定位到要链接然后在shell中打开网页:scrapyshellhttp://shanhuijj.tmall.com/search.h..
分类:
编程语言 时间:
2015-04-05 19:04:49
阅读次数:
400
这个学期开设了编译原理和形式语言与自动机,里面都有介绍过正则表达式,今天自己学了学用python正则表达式写爬虫
一、网络爬虫的定义
网络爬虫,即Web Spider,是一个很形象的名字。
把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页的。
从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址...
分类:
编程语言 时间:
2015-04-04 23:49:43
阅读次数:
1019
利用python抓取网络图片的步骤:
1.根据给定的网址获取网页源代码
2.利用正则表达式把源代码中的图片地址过滤出来
3.根据过滤出来的图片地址下载网络图片
import urllib
import re
import os
#urllib,r...
分类:
编程语言 时间:
2015-04-01 09:37:09
阅读次数:
171
python爬虫Pragmatic系列IV
说明:
在上一篇博客中,我们已经做到了从赶集网首页上抓取所有的链接,并下载下来,分析后存入Excel中。
本次目标:
在本节中,我们将使用python多线程技术从赶集网上抓取链接并分析,注意,我们这次能够抓获的链接数目可以远远大于上一篇博客中抓获的。
分析:
用爬虫统计信息那自然数据越多越好,为了获取更多的数据,我们研究下如何打开上千...
分类:
编程语言 时间:
2015-03-31 16:10:13
阅读次数:
212
python爬虫Pragmatic系列III
说明:
在上一篇博客中,我们已经学会了从赶集网上的一家公司中提取出有关的信息,并存储到Excel中。
本次目标:
在本节中,我们将批量下载赶集首页上所有的公司界面(注意不是赶集网上所有的公司页面,我们可以把这个留给之后的任务),并批量的处理所有公司的有关信息,并保存到Excel中。
注意:
在上一篇博客中,我们使...
分类:
编程语言 时间:
2015-03-28 23:18:24
阅读次数:
441
在使用Python对一些网站的数据进行采集时,经常会遇到需要登录的情况。这些情况下,使用FireFox等浏览器登录时,自带的调试器(快捷键F12)就可以看到登录的时候网页向服务器提交的信息,把这部分信息提取出来就可以利用Python的urllib2库结合Cookie进行模拟登录然后采集数据,..
分类:
编程语言 时间:
2015-03-12 01:06:48
阅读次数:
4418