在做网络爬虫的时候会遇到json数据格式的数据包,如果返回的是一个json格式的文件,可以使用Python
Yaml包处理数据,不需要再使用正则表达式匹配了,使用实例如https://maps-api-ssl.google.com/maps/suggest?q=hello
这个地址,我们需要que....
分类:
编程语言 时间:
2014-05-23 23:04:01
阅读次数:
484
目前很多网站管理者似乎对robots.txt并没有引起多大重视,甚至不知道这么一个文件的作用。本来应该保密的信息被爬虫抓取了,公布在公网上,本应该发布到公网的信息却迟迟不被搜索引擎收录。所以下面这篇文章,就来介绍robots.txt的作用和写作robots.txt基本介绍
robots 是一个...
分类:
其他好文 时间:
2014-05-23 11:03:16
阅读次数:
252
在用Python写爬虫时,一个常见的操作是对抓下的HTML做分析处理,得到想要的内容。一般的方法为使用Python的re库中,用正则表达式来解析文本。不过这种方法适用于所有的文本,而针对于特定格式的文本,如这里的HTML,BeautifulSoup更具有针对性,使用起来也更方便。
BeautifulSoup可以解析HTML,XML等文件,这里只说明其解析HTML的功能。
Beautifu...
分类:
编程语言 时间:
2014-05-22 12:56:51
阅读次数:
682
如果使用对方网站数据,而又没有响应的接口,或者使用接口不够灵活的情况下,使用爬虫在合适不过了。爬虫有几种,对方网站展示形式有几种都是用分析,每个网站展示有相似的地方,有不同的地方。
大部分使用httpRequst就能完成,不管是否添加了口令、随即码、请求参数、提交方式get或者post、地址来源、....
分类:
其他好文 时间:
2014-05-22 10:13:09
阅读次数:
370
简介
nutch是一个用java实现的网络爬虫,但却不仅仅是一个爬虫。它还囊括了网页分析,索引,搜索等功能,所白了,可以当做一个搜索引擎来用。nutch的意义在于,为普通开发人员提供了一扇研究搜索引擎的窗户,让搜索引擎不再神秘。而且,由于nutch的不断发展,对性能以及并行批处理的要求不断提供,h....
分类:
其他好文 时间:
2014-05-22 01:21:40
阅读次数:
258
我在编写一段pythn爬虫的时候遇到一个估计是编码的问题,可以怎么也解决不好。代码如下:#- * -
coding: UTF-8 -*-import urllib.requestimport rehtml =
urllib.request.urlopen("http://weibo.com/p/10...
分类:
编程语言 时间:
2014-05-22 00:59:35
阅读次数:
354
原文:简单爬虫-抓取博客园文章列表
如果使用对方网站数据,而又没有响应的接口,或者使用接口不够灵活的情况下,使用爬虫在合适不过了。爬虫有几种,对方网站展示形式有几种都是用分析,每个网站展示有相似的地方,有不同的地方。
大部分使用httpRequst就能完成,不管是否添加了口令、随即码、请求参数、提交...
分类:
其他好文 时间:
2014-05-22 00:45:58
阅读次数:
468
之前看过Python学习的经验,说以工程为导向学习。
自己分析了一下,一般接触Python的都有一定的其他语言基础,对于程序设计的基本逻辑,语法都有一个大概的了解。而Python这种脚本语言,没有过于独特的语法,在一定的其他语言的基础上,更是可以直接上手的。
之前看Python简明教程,半天没有进度。正好遇上Python爬虫项目,直接上手,方便快捷。
网站:http://acm.njupt.edu.cn/welcome.do?method=index,正值系统更新,于是写一个备份代码的爬虫。...
分类:
编程语言 时间:
2014-05-18 08:25:35
阅读次数:
461
最近在做一个网络爬虫程序,后台使用python不定时去抓取数据,前台使用php进行展示
网站是:http://se.dianfenxiang.com...
分类:
编程语言 时间:
2014-05-15 19:49:12
阅读次数:
291
OJ升级,代码可能会丢失. 所以要事先备份. 一开始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启发和聪神的原始代码, 网页爬虫走起!
已经有段时间没看Python, 这次网页爬虫的原始代码是 python2.7版本, 试了一下修改到3.0版本, 要做很多包的更替,感觉比较烦,所以索性就在这个2.7版本上完善了.
首先观赏一下原始代码,我给加了一些注释:
# -*-...
分类:
编程语言 时间:
2014-05-15 02:39:45
阅读次数:
439