在做网络爬虫的时候会遇到json数据格式的数据包,如果返回的是一个json格式的文件,可以使用Python
Yaml包处理数据,不需要再使用正则表达式匹配了,使用实例如https://maps-api-ssl.google.com/maps/suggest?q=hello
这个地址,我们需要que....
分类:
编程语言 时间:
2014-05-23 23:04:01
阅读次数:
484
目前很多网站管理者似乎对robots.txt并没有引起多大重视,甚至不知道这么一个文件的作用。本来应该保密的信息被爬虫抓取了,公布在公网上,本应该发布到公网的信息却迟迟不被搜索引擎收录。所以下面这篇文章,就来介绍robots.txt的作用和写作robots.txt基本介绍
robots 是一个...
分类:
其他好文 时间:
2014-05-23 11:03:16
阅读次数:
252
在用Python写爬虫时,一个常见的操作是对抓下的HTML做分析处理,得到想要的内容。一般的方法为使用Python的re库中,用正则表达式来解析文本。不过这种方法适用于所有的文本,而针对于特定格式的文本,如这里的HTML,BeautifulSoup更具有针对性,使用起来也更方便。
BeautifulSoup可以解析HTML,XML等文件,这里只说明其解析HTML的功能。
Beautifu...
分类:
编程语言 时间:
2014-05-22 12:56:51
阅读次数:
682
当你点击看到这篇文章的时候,你已经得到了祝福。一个来自夜深人静的码农,在2014年5月19号的01:18分,默默为你献上祝福。希望你,我和他,每一个在IT行业中奋斗的人,能找到属于自己一片天空。
在翻译结束完3.2.3这份文档后,首先感谢我的客户经理,当在面试的过程中让我产生翻译文档的想法。也就开始了我第一次翻译技术文档的路程。当刚开始翻译的时候,不知道默默问了多少遍,到底能不能...
分类:
编程语言 时间:
2014-05-22 11:59:43
阅读次数:
267
8.5 日志
Logging模块提供了一些功能全面和灵活的日志系统。最简单的形式就是把日志信息发送到一个文件或sys.stderr;
import logging
logging.debug(’Debugging information’)
logging.info(’Informational message’)
logging.warning(’Warning:config file...
分类:
编程语言 时间:
2014-05-22 10:45:11
阅读次数:
379
8.7 列表工具
许多数据结构需求能通过内置列表类型满足,但是,有时处于不同性能取舍需要从中选择一种实现。
Array模块能提供一个像列表的array对象,它仅仅能存储同类数据并且更加简洁。接下来例子展示了一个数字数组。存储是2个字节的无标识的二进制数据而不是在python对象中普通列表中的每个16字节的值。
>>> from array import array
>>> a = arra...
分类:
编程语言 时间:
2014-05-22 07:46:06
阅读次数:
362
8.3 使用二进制数据记录布局
Struct模块提供了pack()和unpack()方法来处理可变长度的二进制格式。接下来的例子展示在一个没用zipfile模块的zipfile如何通过标题信息循环。压缩码“H”和“I”分别表示2和4字节无符号数字,“”表明都是标准大小并且按照little-endian字节排序。
8.4 多线程
线程是一种针对分离不连续和依赖的任务的技术。用线程可以提高...
分类:
编程语言 时间:
2014-05-22 07:26:58
阅读次数:
311
之前看过Python学习的经验,说以工程为导向学习。
自己分析了一下,一般接触Python的都有一定的其他语言基础,对于程序设计的基本逻辑,语法都有一个大概的了解。而Python这种脚本语言,没有过于独特的语法,在一定的其他语言的基础上,更是可以直接上手的。
之前看Python简明教程,半天没有进度。正好遇上Python爬虫项目,直接上手,方便快捷。
网站:http://acm.njupt.edu.cn/welcome.do?method=index,正值系统更新,于是写一个备份代码的爬虫。...
分类:
编程语言 时间:
2014-05-18 08:25:35
阅读次数:
461
一,安装基础环境
1,安装jdk7,并配置环境变量(pyDev要求jdk7及以上版本,否则安装好也不显示) 2,下载Eclipse并解压
3,安装python3.X二,Eclipse下配置pyDev 1,安装插件:help -> Install new Software..
->输入PyDe...
分类:
编程语言 时间:
2014-05-17 18:54:51
阅读次数:
322
在8.04.4环境下(其实我觉得跟环境无关,是我语句有问题):$dpkg-l|grep-ipythoniilibapache2-mod-python3.3.1-2build1Apache2modulethatembedsPythonwithinthiimoinmoin-common1.5.8-5.1ubuntu2.5PythoncloneofWikiWiki-commondataiipython2.5.2-0ubuntu1Aninteractivehigh-l..
分类:
数据库 时间:
2014-05-15 19:17:41
阅读次数:
677