原文链接:http://www.pythonclub.org/python-network-application/observer-spider 原文的名称虽然用了《用python爬虫抓站的一些技巧总结》但是,这些技巧不仅仅只有使用python的开发可以借鉴,我看到这篇文章的时候也在回忆自己...
分类:
编程语言 时间:
2015-09-03 23:25:37
阅读次数:
617
1. 正则表达式 正则表达式是可以匹配文本片段的模式。 1.1 通配符 正则表达式能够匹配对于一个的字符串,可以使用特殊字符创建这类模式。(图片来自cnblogs) 1.2 特殊字符的转义 由于在正则表达式中,有时需要将特殊字符作为普通字符处理,就需要用‘\’进行转义,例如‘python\\.org...
分类:
编程语言 时间:
2015-08-30 21:04:21
阅读次数:
258
这次的项目 和文件都放到了 github 上 https://github.com/poiu1235/weibo-catch:
有兴趣的可以follow一下,或者点个赞咯
我这里采用的深度挖掘的方式:没有设定爬取的边界(这个以后是要考虑的)
大致的思路是,用自己的 账号登陆后,获取自己的微博列表和朋友列表。
然后根据朋友列表然后在爬取对方的微博列表和朋友列表。...
分类:
编程语言 时间:
2015-08-30 17:32:23
阅读次数:
809
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题、时间、正文等)。问题是这些网站都很老旧和小众,当然也不可能遵守Microdata这类标准。这时候所有网页共用一套默认规则无法保证正确抓取到信息,而每个网页写一份spider代码也不切实际。这时候,我迫切地希望...
分类:
编程语言 时间:
2015-08-29 16:57:23
阅读次数:
338
requests简介
requests是python的一个HTTP客户端库,跟urllib,urllib2类似,但是python的标准库urllib2提供了大部分需要的HTTP功能,但是API太逆天了,一个简单的功能就需要一大堆代码。
Requests 使用的是 urllib3,因此继承了它的所有特性。Requests 支持 HTTP 连接保持和连接池,支持使用 cookie 保持会话...
分类:
编程语言 时间:
2015-08-29 12:38:32
阅读次数:
253
1. Beautiful Soup简介 Beautiful Soup是将数据从HTML和XML文件中解析出来的一个python库,它能够提供一种符合习惯的方法去遍历搜索和修改解析树,这将大大减少爬虫程序的运行时间。 Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为u...
分类:
编程语言 时间:
2015-08-29 10:58:50
阅读次数:
162
今天学习使用python爬虫的时候发现爬到的网页中文会乱码,一直网上搜索解决办法,一个一个试验过去,发现还是乱码,然后我就开始使用其它方法测试,用python自带的编辑器打开是正常的,发现是notepad++这款编辑器的问题,我更改了编码方式为utf-8无bom,尝试了所有设置,都没有用,新建,.....
分类:
编程语言 时间:
2015-08-28 17:22:00
阅读次数:
188
python爬虫爬取csdn博客专家所有博客内容:
全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下
{CSDN:CODE:992911}
结果如下:...
分类:
编程语言 时间:
2015-08-27 23:10:40
阅读次数:
194
Python练习题第 0011题https://github.com/Yixiaohan/show-me-the-code
用 Python 写一个爬图片的程序,爬这个链接里的日本妹子图片 :-)
http://tieba.baidu.com/p/2166231880如果html是这样子的话:...
...
...</img...
分类:
编程语言 时间:
2015-08-27 23:01:54
阅读次数:
366
从大神这儿静觅 » Python爬虫实战二之爬取百度贴吧帖子讲的很不错,按照步骤一步一步的做效果很明显。第一次真正做出一个小爬虫程序,所以在csdn写出来也是对自己的一种鞭策一种鼓励,不喜勿喷,还请大神不吝赐教。
因为大神博文讲的很详细(真心详细),所以步骤我就不一一细说了
先把自己的代码贴出来(大部分一样):
#!/usr/bin/env python
# coding=utf-8...
分类:
编程语言 时间:
2015-08-25 19:40:33
阅读次数:
271