1.pyquery简介
python中的pyquery模块语法与jquery相近,可用来解析HTML文件。官方文档地址:https://pythonhosted.org/pyquery/ 。通过HTML中的标签、id、给定的索引等来获取元素,使得解析HTML文件极为方便。
2.实例
2.1 爬取豆瓣电影页面中主演
右键chrome中的审查元素,观察到主演的标...
分类:
编程语言 时间:
2014-07-22 23:02:54
阅读次数:
455
今天来讲如何利用Python爬虫下载文章,拿韩寒的博客为例来一步一步进行详细探讨。。。
韩寒的博客地址是:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html
可以看出左边是文章列表,而且不止一页,我们先从最简单的开始,先对一篇文章进行下载,再研究对一页所有的文
章进行下载,最后再研究对所有的文章下载。...
分类:
编程语言 时间:
2014-07-22 22:59:35
阅读次数:
330
DNS 解析是高性能网络爬虫的瓶颈,主要是因为:1.
由于域名服务的分布式的特性,DNS解析可能需要多次的请求转发,有时需要几秒甚至更长的时间来解析出相应的IP 地址。2.
现有的标准库对DNS解析的实现是同步的。JAVA中InetAddress.getByName是线程阻塞的。并且JAVA中实现的...
分类:
其他好文 时间:
2014-05-02 00:20:56
阅读次数:
349
xmfdsh我真是兴趣多多,怎么老是静不下心来搞定一方面的技术,再学点其他的东西,循序渐进,好吧,我又研究网络爬虫去了,这是一个简单版的,参考了网上很多资料,C#来编写,专门抓取图片,能够抓取一些需要cookie的网站,所以功能上还是挺完善的,xmfdsh只研究了三天,因此还有大把需要改进的地方,日...
分类:
其他好文 时间:
2014-04-29 21:50:37
阅读次数:
712
介绍功能:网络爬虫开发语言:c++开发者:Sébastien
Ailleret(法国)特点:只抓取网页,高效(一个简单的larbin的爬虫可以每天获取500万的网页)安装安装平台:Ubuntu
12.10下载:http://sourceforge.net/projects/larbin/files/...
分类:
其他好文 时间:
2014-04-28 14:46:03
阅读次数:
565
前文中我们把网络爬虫爬取的数据保存为JSON格式,但为了能够更方便地处理数据,我们希望把这些数据导入到MySQL数据库中。phpMyadmin可以把MySQL数据库中的数据导出为JSON格式文件,但却不能把JSON格式文件导入到MySQL数据库。为了实现这个目标,可以编写Python脚本将JSON格式数据转换为SQL语句以便导入MySQL数据库。
JSON文件tencent.json...
分类:
数据库 时间:
2014-04-28 10:33:41
阅读次数:
479