今天闲着无聊,有想鼓捣Python了,想实现网络爬虫,帮我下载音乐的功能。现在网上找了相关的一些文章教程http://jecvay.com/2014/09/python3-web-bug-series1.html这个博主写的东西给我了一定的启发,不过我不大喜欢动脑子,只想完成目标,所以喜欢拿来主义使...
分类:
编程语言 时间:
2015-04-12 13:24:24
阅读次数:
157
用java写的,而且是用来爬邮箱的,关于邮箱的正则只是随便写写,需要优化,仅供娱乐。import java.io.InputStreamReader;import java.net.URL;import java.net.URLConnection;import java.util.regex.Ma...
分类:
其他好文 时间:
2015-04-08 19:33:04
阅读次数:
138
本文介绍了如何通过CrawlBase来实现纵横小说阅读页信息的采集,加上之前的三篇博客就完成了对纵横小说的信息采集,之后会给出具体的main方法,来实现整个流程的运行~...
分类:
Web程序 时间:
2015-04-08 10:56:51
阅读次数:
157
点这里阅读目录用 AngularJS(以及其它 JavaScript 框架)开发的 Web 站点不支持爬虫的抓取解决方案为什么公开我们的解决方案实现AngularJS 服务结论Prerender 服务能够为网络爬虫提供预先渲染的动态页面内容,解决了用 JavaScript 框架构建的 Web 站点不...
分类:
编程语言 时间:
2015-04-08 10:33:22
阅读次数:
191
这个学期开设了编译原理和形式语言与自动机,里面都有介绍过正则表达式,今天自己学了学用python正则表达式写爬虫
一、网络爬虫的定义
网络爬虫,即Web Spider,是一个很形象的名字。
把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页的。
从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址...
分类:
编程语言 时间:
2015-04-04 23:49:43
阅读次数:
1019
Set是一个有趣的集合。它看起来有点像List,实际操作却有点像Map。Set也是记录一系列值的集合,但是呢,它和Map的key相同,它不能重复,否则会插入失败。所以呢,我们经常可以看见在Map中可以调用keySet()。说到这呢,它貌似就已经能做很多事了。假如你有兴趣做网络爬虫的话,有一个过滤重复链接的问题就不得不考虑了。Set貌似就是一个非常简单的解决办法了,我们可以用它来去重。
好了,我们...
分类:
编程语言 时间:
2015-04-04 22:37:28
阅读次数:
218
当url地址含有中文或者“/”的时候,这是就需要用做urlencode一下编码转换。
一、urlencode
urlencode的参数是词典,它可以将key-value这样的键值对转换成我们想要的格式。例如...
分类:
编程语言 时间:
2015-04-04 09:25:27
阅读次数:
192
本文介绍了如何通过CrawlBase来实现纵横小说章节列表页信息的采集,同时提供了对于无法右键查看网页源代码网页的信息采集方案...
分类:
Web程序 时间:
2015-04-03 15:17:59
阅读次数:
134
PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用 Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。在线示 例:http://...
分类:
Web程序 时间:
2015-04-03 11:41:02
阅读次数:
212
本文通过对纵横小说简介页源代码的分析,介绍了如何通过CrawlBase来采集相关信息...
分类:
Web程序 时间:
2015-04-03 11:17:15
阅读次数:
262