参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707
计数排序(Counting
sort)是一种稳定的排序算法。计数排序使用一个额外的数组C,其中第i个元素是待排序数组A中值小于等于i的元素的个数。然后根据数组C来将A中的元素排到正确的位置。限制:所有值得取值范围不能太大,并且需要知道确切的取值范围。本算法需要的辅助空间要求较高。当输入的元素是
n ...
分类:
其他好文 时间:
2014-04-28 17:13:54
阅读次数:
558
想写个自动定会议室的程序。1、会议系统登录后,存在session,提交会议室的订单通过httpwatch拼接后获得链接地址,直接访问链接及可以了2、如果没有提前登录,就无法提交链接了。使用python+PAMIE实现了了自动登录的过程(登录的链接一直拼接不出来。。)下面说说这个研究过程。。1、一开始...
分类:
编程语言 时间:
2014-04-28 16:04:47
阅读次数:
848
1. find find是最常见和最强大的查找命令,你可以用它找到任何你想找的文件。
find的使用格式如下: $ find - : 所要搜索的目录及其所有子目录。默认为当前目录。 - : 所要搜索的文件的特征。 - :
对搜索结果进行特定的处理。 如果什么参数也不加,find...
分类:
其他好文 时间:
2014-04-28 15:33:09
阅读次数:
602
这个天气预报采集是从中国天气网提取广东省内主要城市的天气并回显。本来是打算采集腾讯天气的,但是貌似它的数据是用js写上去还是什么的,得到的html文本中不包含数据,所以就算了爬虫简单说来包括两个步骤:获得网页文本、过滤得到数据。
1、获得html文本。 python在获取html方面十分方便,寥.....
分类:
编程语言 时间:
2014-04-28 15:31:09
阅读次数:
712
参考文档:http://hi.baidu.com/posinfo/item/dc3e73584c535cc9d2e10c27 C++
sort函数用法FROM:http://hi.baidu.com/blackdemonfish/blog/item/e2c1d655d702a45ed0090652....
分类:
编程语言 时间:
2014-04-28 14:22:25
阅读次数:
706
sudo apt-get install
python-software-propertiessudo apt-add-repository ppa:brightbox/ruby-ngsudo
apt-get updatesudo apt-get install ruby2.1ruby2.1 -vr...
分类:
其他好文 时间:
2014-04-28 14:18:29
阅读次数:
445
交互式shell和非交互式shell、登录shell和非登录shell的区别。首先,这是两个不同的维度来划分的,一个是是否交互式,另一个是是否登录。交互式shell和非交互式shell(interactive
shell and non-interactive shell)交互式模式就是在终端上执行...
分类:
其他好文 时间:
2014-04-28 00:05:33
阅读次数:
210362
一、普通数组排序
js中用方法sort()为数组排序。sort()方法有一个可选参数,是用来确定元素顺序的函数。如果这个参数被省略,那么数组中的元素将按照ASCII字符顺序进行排序。如:var
arr = ["a", "b", "A", "B"];arr.sort();console.log(...
分类:
Web程序 时间:
2014-04-27 21:25:39
阅读次数:
1055