参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707
计数排序(Counting
sort)是一种稳定的排序算法。计数排序使用一个额外的数组C,其中第i个元素是待排序数组A中值小于等于i的元素的个数。然后根据数组C来将A中的元素排到正确的位置。限制:所有值得取值范围不能太大,并且需要知道确切的取值范围。本算法需要的辅助空间要求较高。当输入的元素是
n ...
分类:
其他好文 时间:
2014-04-28 17:13:54
阅读次数:
558
想写个自动定会议室的程序。1、会议系统登录后,存在session,提交会议室的订单通过httpwatch拼接后获得链接地址,直接访问链接及可以了2、如果没有提前登录,就无法提交链接了。使用python+PAMIE实现了了自动登录的过程(登录的链接一直拼接不出来。。)下面说说这个研究过程。。1、一开始...
分类:
编程语言 时间:
2014-04-28 16:04:47
阅读次数:
848
什么是后缀数组?后缀数组是一种解决字符串问题的有力工具。相比于后缀树,它更易于实现且占用内存更少。在实际应用中,后缀数组经常用于解决字符串有关的复杂问题。先介绍几个后缀数组中的基本定义:子串:字符串S
的子串r[i..j],i≤j,表示r 串中从i 到j 这一段,也就是顺次排列r[i],r[i+1]...
分类:
其他好文 时间:
2014-04-28 15:54:52
阅读次数:
564
这个天气预报采集是从中国天气网提取广东省内主要城市的天气并回显。本来是打算采集腾讯天气的,但是貌似它的数据是用js写上去还是什么的,得到的html文本中不包含数据,所以就算了爬虫简单说来包括两个步骤:获得网页文本、过滤得到数据。
1、获得html文本。 python在获取html方面十分方便,寥.....
分类:
编程语言 时间:
2014-04-28 15:31:09
阅读次数:
712
sudo apt-get install
python-software-propertiessudo apt-add-repository ppa:brightbox/ruby-ngsudo
apt-get updatesudo apt-get install ruby2.1ruby2.1 -vr...
分类:
其他好文 时间:
2014-04-28 14:18:29
阅读次数:
445
LeetCode:Combinations这篇博客中给出了不包含重复元素求组合的5种解法。我们在这些解法的基础上修改以支持包含重复元素的情况。对于这种情况,首先肯定要对数组排序,以下不再强调修改算法1:按照求包含重复元素集合子集的方法LeetCode:Subsets
II算法1的解释,我们知道:若当...
分类:
其他好文 时间:
2014-04-28 14:00:43
阅读次数:
717
本文转载 自PHP技术交流圈 1.如果一个方法能被静态,那就声明他为静态的,速度可提高1/4;
2.echo的效率高于print,因为echo没有返回值,print返回一个整型; 3.在循环之前设置循环的最大次数,而非在在循环中;
4.销毁变量去释放内存,特别是大的数组; ...
分类:
Web程序 时间:
2014-04-28 11:58:17
阅读次数:
552
ArrayList:public class ArrayListextends
AbstractListimplements List, RandomAccess, Cloneable, SerializableList
接口的大小可变数组的实现。实现了所有可选列表操作,并允许包括 null 在内的...
分类:
编程语言 时间:
2014-04-28 01:31:46
阅读次数:
834
C语言或C++中,数组元素全为指针的数组称为指针数组一维指针数组的定义为:类型名*数组标识符[数组长度]eg:
int*ptr_array[10];以下内容来自百度百科链接http://baike.baidu.com/link?url=r6JRJbaleIw_69o-t8uO2vTF0r4oukf1...
分类:
编程语言 时间:
2014-04-28 01:02:26
阅读次数:
667