参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707
想写个自动定会议室的程序。1、会议系统登录后,存在session,提交会议室的订单通过httpwatch拼接后获得链接地址,直接访问链接及可以了2、如果没有提前登录,就无法提交链接了。使用python+PAMIE实现了了自动登录的过程(登录的链接一直拼接不出来。。)下面说说这个研究过程。。1、一开始...
分类:
编程语言 时间:
2014-04-28 16:04:47
阅读次数:
848
这个天气预报采集是从中国天气网提取广东省内主要城市的天气并回显。本来是打算采集腾讯天气的,但是貌似它的数据是用js写上去还是什么的,得到的html文本中不包含数据,所以就算了爬虫简单说来包括两个步骤:获得网页文本、过滤得到数据。
1、获得html文本。 python在获取html方面十分方便,寥.....
分类:
编程语言 时间:
2014-04-28 15:31:09
阅读次数:
712
1下载驱动库http://sourceforge.net/projects/mysql-python/2,yum install mysql-dev*yum
install python-dev*3,python setup.py install
分类:
数据库 时间:
2014-04-28 05:40:20
阅读次数:
634
3.1 Installing mod_pythonTo install mod_python,
we simply run:yum install mod_python3.2 Configuring ApacheNow we must configure
Apache so that it can ...
分类:
编程语言 时间:
2014-04-28 04:52:46
阅读次数:
735
近期很多文章都提到了User-Agent (UA)
字符串,但大部分网友都不知道这个东西有什么用处。其实简单的说User-Agent就是客户端浏览器等应用程序使用的一种特殊的网络协议,在每次浏览器(邮件客户端/搜索引擎蜘蛛)进行
HTTP 请求时发送到服务器,服务器就知道了用户是使用什么浏览器(邮件...
分类:
其他好文 时间:
2014-04-28 04:25:14
阅读次数:
649
在阅读本文前,您需要了解云计算与互联网开发基础知识。[忙信号模式]是专注应用程序对当云服务请求响应不成功时忙信号如何处理。这种模式从客户端角度出发,这里主要描述的云计算中场景。客户端是每发出请求到服务端,服务端答复忙信号。客户端负责根据忙信号做出适当数量的重试次数处理。如果重试过程中继续收到忙信号,...
分类:
其他好文 时间:
2014-04-28 03:34:09
阅读次数:
729
1.
负载均衡概述负载均衡的基本思路是:在一个服务器集群中尽可能的平衡负载量。通常的做法是在服务器前端设置一个负载均衡器(一般是专门的硬件设备)。然后负载均衡器将请求的连接路由到最空闲的可用服务器。下图显示了一个典型的大型网站负载均衡设置,其中一个负载均衡器用于HTTP流量,另一个用于MySQL访问...
分类:
其他好文 时间:
2014-04-28 02:42:43
阅读次数:
648
在ASP.NETMVC开发模型中,页面的请求并不是像传统的Web应用开发中的请求一样是对某个文件进行访问,初学者可能会在一开始觉得非常的不适应。例如当用户访问/home/abc.aspx时,在服务器的系统目录中一定会存在abc.aspx这个页面,而对于传统的页面请求的过程也非常容易理解,因为在...
分类:
Web程序 时间:
2014-04-28 00:46:45
阅读次数:
693
2014-04-27
19:26题目:哲学家吃饭问题,死锁问题经典模型(专门用来黑哲学家的?)。解法:死锁四条件:1. 资源互斥。2. 请求保持。3. 非抢占。4.
循环等待。所以,某砖家拿起一只筷子后如果发现没有另一只了,就必须把手里这只筷子放下,这应该是通过破坏“请求保持”原则来防止死锁产生,请...
分类:
编程语言 时间:
2014-04-27 21:30:09
阅读次数:
699