参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707
想写个自动定会议室的程序。1、会议系统登录后,存在session,提交会议室的订单通过httpwatch拼接后获得链接地址,直接访问链接及可以了2、如果没有提前登录,就无法提交链接了。使用python+PAMIE实现了了自动登录的过程(登录的链接一直拼接不出来。。)下面说说这个研究过程。。1、一开始...
分类:
编程语言 时间:
2014-04-28 16:04:47
阅读次数:
848
这个天气预报采集是从中国天气网提取广东省内主要城市的天气并回显。本来是打算采集腾讯天气的,但是貌似它的数据是用js写上去还是什么的,得到的html文本中不包含数据,所以就算了爬虫简单说来包括两个步骤:获得网页文本、过滤得到数据。
1、获得html文本。 python在获取html方面十分方便,寥.....
分类:
编程语言 时间:
2014-04-28 15:31:09
阅读次数:
712
3.1 Installing mod_pythonTo install mod_python,
we simply run:yum install mod_python3.2 Configuring ApacheNow we must configure
Apache so that it can ...
分类:
编程语言 时间:
2014-04-28 04:52:46
阅读次数:
735
WhatWeb是一款网站指纹识别工具,主要针对的问题是:“这个网站使用的什么技术?”WhatWeb可以告诉你网站搭建使用的程序,包括何种CMS系统、什么博客系统、Javascript库、web服务器、内嵌设备等。WhatWeb有超过900个插件,并且可以识别版本号、email地址、账号、web框架、...
分类:
Web程序 时间:
2014-04-28 03:45:56
阅读次数:
884
R.java文件无法创建的原因网上有很多说法普遍是以下两种:1.
xml文件有错误:解决方法就是找到哪个xml有错然后把错误修复就OK了。2.编码问题这时候只要把xml文件的编码改成utf8就能解决问题。然而对于查找xml文件错误我们常常依赖android的自带工具进行检测,但是只要是人写得程序必然...
分类:
移动开发 时间:
2014-04-28 03:30:04
阅读次数:
601
多并发的时候,在什么情况下必须加锁?如果不加锁会产生什么样的后果。加锁的场景跟java的new
thread和Runnable的关系是什么?看看java的concurrentMap源码。还有spring 的web.xml启动执行源码
分类:
编程语言 时间:
2014-04-28 03:16:05
阅读次数:
537
Ctrl+D:删除光标所在行Ctrl+/ :注释选中行
;Ctrl+\:注销选中行Ctrl+Shift+/:注释选中的java或xml代码块; Ctrl+Shift+\:注销选中的Java或xml代码块。(形式:/*
*/ 或 )shift + alt + j或/**+Enter(回车键):添加.....
分类:
移动开发 时间:
2014-04-27 23:06:14
阅读次数:
668
在admin页面,输入相关内容后,会返回xml格式的内容。说明如下: 0 3 on 10 0
monitor 2.2 0.5747526 ...
分类:
其他好文 时间:
2014-04-27 22:10:48
阅读次数:
600