网页内容的解析可以说是爬虫最主要和最核心的工作,从一堆看似杂乱的代码中获取我们需要的信息,这就是爬虫的本质。python对于网页解析提供了很多的方式,传统的即通过urllib2包获取网页代码,再通过re正则表达式模块自己写规则来获取信息。第三方的包也有,类似pyquery、lxml、Beautifu...
分类:
其他好文 时间:
2015-02-15 18:03:18
阅读次数:
270
发现对于QQ群空间文件的抓取毫无办法。QQ空间的代码可圈可点:做了一个js的“客户端”,第一次加载时,将文件的列表信息全部抓取出来,然后基于js进行翻页和排序。因此,想要抓取js渲染的dom,是不可能的,此处只能用js或者jq来操作了。对于这种情况,得用js写“爬虫”逻辑。附上qq空间群文件的抓取逻...
分类:
其他好文 时间:
2014-10-07 22:39:24
阅读次数:
159
偶尔的机会,知道这么个扩展,手贱翻了下文档,发现似乎挺有意思,遂记录一二。what:这是一个python版本的jquery,而且是后端执行的,至少官方是这么说的:pyquery allows you to make jquery queries on xml documents. The API i...
分类:
编程语言 时间:
2014-09-21 18:14:21
阅读次数:
219
1.Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式)2.Python提供了原始字符串,顾名思义,就是保留原始字符的意思,不对反斜杠及反斜杠后面的字符进行转义,声明原始字符串的方法是在字符串前面加上’r'或者’R'。3.findall里面可以直接...
分类:
编程语言 时间:
2014-09-10 15:28:20
阅读次数:
263
1.pyquery简介
python中的pyquery模块语法与jquery相近,可用来解析HTML文件。官方文档地址:https://pythonhosted.org/pyquery/ 。通过HTML中的标签、id、给定的索引等来获取元素,使得解析HTML文件极为方便。
2.实例
2.1 爬取豆瓣电影页面中主演
右键chrome中的审查元素,观察到主演的标...
分类:
编程语言 时间:
2014-07-22 23:02:54
阅读次数:
455
下载8000首儿歌的python的代码:#-*- coding: UTF-8 -*-from pyquery import PyQuery as pyfrom lxml import etreeimport urllibimport reimport osimport sysimport loggi...
分类:
编程语言 时间:
2014-07-07 14:43:22
阅读次数:
216