上次写了一篇我是怎么处理其他网站恶意爬虫博客园的,希望大家喜欢,然后大家回复积极,对于我也是一个鼓励,针对上次还有个网站过滤掉了我的版权说明,在这一次却没有过滤掉,是不是有点小高兴,来吧,小伙伴们,我们一起高兴下吧。
分类:
Web程序 时间:
2014-12-10 09:18:54
阅读次数:
228
第二轮迭代的第二周开始了,上一周我们进行了对代码优化的探索与自我审查。本周,我们有以下两点目标要实现:1.对客户端进行优化。2.网络爬虫爬取美团外卖。客户端优化主要开发人员:高雅智、牛强、彭林江、张明培育。网络爬虫功能主要开发人员:王卓、郝倩。具体分配如下表成员新任务高雅智注册登录收藏功能图片控件优...
分类:
其他好文 时间:
2014-12-10 00:26:51
阅读次数:
278
scrapy是一个python爬虫框架,使用起来还是非常简单的。使用pip安装scrapy 首先安装pip,安装后使用pip安装scrapy,pip install scrapyscrapy创建项目,及简单测试 这里有几个比较好的例子 http://blog.csdn.net/HanTangSo.....
分类:
其他好文 时间:
2014-12-08 22:59:17
阅读次数:
333
python 网页爬虫抓取的url页面 是GBK格式。
会显示乱码,所以以至于后面的用正则表达式匹配都是错误的。
以下方法可以解决此问题:
reload(sys)
sys.setdefaultencoding('utf-8')
在程序开头添加以上代码即可。...
分类:
编程语言 时间:
2014-12-08 19:39:09
阅读次数:
144
最近写一个爬虫系统,需要用到python的日志记录模块,于是便学习了一下。python的标准库里的日志系统从Python2.3开始支持。只要import logging这个模块即可使用。如果你想开发一个日志系统, 既要把日志输出到控制台, 还要写入日志文件,只要这样使用:复制代码代码如下:impor...
分类:
编程语言 时间:
2014-12-08 19:27:53
阅读次数:
196
本文从GitHub中整理出的14个最受欢迎的Python开源框架。这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等。 Django: Python Web应用开发框架 Django 应该是最出名的Python框架,GAE甚至Erlang都有框架受它影响。Django是...
分类:
编程语言 时间:
2014-12-08 13:50:42
阅读次数:
216
??
一:
1
搜索引擎的历史
萌芽:Archie、Gopher
Archie:搜索FTP服务器上的文件
Gopher:索引网页
2
起步:Robot(网络机器人)的出现与spider(网络爬虫)
Robot基于网络的,可以执行特定任务的程序
Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)----网络自...
分类:
Web程序 时间:
2014-12-08 00:56:28
阅读次数:
301
最近在研究Python,熟悉了一些基本语法和模块的使用;现在打算研究一下Python爬虫。学习主要是通过别人的博客和自己下载的一下文档进行的,自己也写一下博客作为记录学习自己过程吧。Python代码写起来和Java的感觉很不一样。Python爬虫主要使用的是urllib模块,Python2.x版本是...
分类:
编程语言 时间:
2014-12-07 20:19:36
阅读次数:
222
周末没事自己写了个网络爬虫,先介绍一下它的功能,这是个小程序,主要用来抓取网页上的文章,博客等,首先找到你要抓取的文章,比如韩寒的新浪博客,进入他的文章目录,记下目录的连接比如http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html,里面每篇文章都有个连接..
分类:
编程语言 时间:
2014-12-07 06:55:19
阅读次数:
233
1、什么是HTML语义化? 根据内容的结构化(内容语义化),选择合适的标签(代码语义化)便于开发者阅读和写出更优雅的代码的同时让浏览器的爬虫和机器很好地解析。2、为什么要语义化?为了在没有CSS的情况下,页面也能呈现出很好地内容结构、代码结构:为了裸奔时好看;用户体验:例如title、alt用于解....
分类:
Web程序 时间:
2014-12-06 20:16:20
阅读次数:
176