一个简单网络爬虫的实现
——抓取网易新闻
这次来指定一个信息量稍大一点的抓取目标——网易新闻(国内新闻) http://news.163.com/domestic/
这次要达到的目标:
1. 提取有用文本信息
2. 将新闻中所包含的图片信息保存在本地
3. 构建新的HTML文件,其中只包含有新闻主体内容与对应的图片信息...
分类:
其他好文 时间:
2015-05-26 10:43:35
阅读次数:
173
Keepalived——保持存活,在网络里的含义就是保持在线。Keepalived提供高可用和热备的功能,用来防止单点故障的发生。1、VRRP协议基本原理介绍Keepalived实现的基础是VRRP协议,我们将会在这一节中简要介绍VRRP协议的基本原理。1.1 协议VRRP协议是为消除在静态缺省路由...
分类:
其他好文 时间:
2015-05-26 10:42:49
阅读次数:
219
面向对象(Object-Oriented, OO)的语言有一个标志,那就是它们都有类的概念,而通过类可以创建任意多个具有相同属性和方法的对象。而 ECMAScript 中没有类的概念,所以我们可以使用对象模拟出类。ECMA-262 把对象定义为:“无序属性的集合,其属性可以包含基本值、对象或者函.....
分类:
编程语言 时间:
2015-05-26 10:40:41
阅读次数:
195
EDIT :Here the best solution : install it via npm :npm install -g slimerjs-g to be available everywhere. And that's it, juste choose your--engine=slim...
现如今,我们每天都能接收到庞大的信息量,能观览这些“好文”貌似是幸福的,但量多并不能衡量我们学习上的提升,面对过于零碎不够系统的信息,我们该如何过滤掉“垃圾”信息?把有用的记录下来并加以概括,一则加深印象,及时吸收营养;二则方便日后温故知新;三则分享给周边的朋友,共同进步。督促自己的同时,又可以.....
分类:
其他好文 时间:
2015-05-26 10:42:06
阅读次数:
127
在大多数情况下,人为更新统计信息可以获得更好的性能。这个文章,我们可以来看下如何检测过期的统计信息。在SQL Server 2005以后的版本里,SQL Server使用ColModCtr对统计的主要列对象进行跟踪。但在SQL server 2005或SQL server 2008里没有对应的DMV...
分类:
其他好文 时间:
2015-05-26 10:41:56
阅读次数:
136
Search Insert PositionTotal Accepted:56150Total Submissions:158216My SubmissionsQuestionSolutionGiven a sorted array and a target value, return the in...
分类:
其他好文 时间:
2015-05-26 10:42:07
阅读次数:
127
(从已经死了一次又一次终于挂掉的百度空间人工抢救出来的,发表日期2014-05-11)Win8增加了快速启动功能,能让计算机尽快的启动进入Windows界面。win8的这种快速启动功能只会在“关机”后再开机时起作用,对于直接选择“重启”不起作用。默认情况下,在 Windows 中快速启动处于启用状态...
python性能是个瓶颈,没必要在上面花太多精力。如果在意性能,应当直接换编程语言。优化python的思路:1、数据结构set/list/dict等等要区分清楚用途2、算法不在这里细说,通用思路3、多层循环减少不必要的运算 for i in range(10): x = len(aa) ....
分类:
其他好文 时间:
2015-05-26 10:42:13
阅读次数:
117
1.DAO层接口的设计,定义一个PersonDAO接口,里面声明了两个方法:public interface PersonDAO{ public List queryByPage(String hql, int offset, int pageSize); public int ...
分类:
Web程序 时间:
2015-05-26 10:40:23
阅读次数:
131
functionxml2arr($xml){$obj=simplexml_load_string($xml,'SimpleXMLElement',LIBXML_NOCDATA);$json=json_encode($obj);$arr=json_decode($json,true);return$a...
分类:
编程语言 时间:
2015-05-26 10:40:31
阅读次数:
168
WAHT正则表达式 描述 一些规则,而这些规则通过规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式,用来查找和匹配字符串,hi 这个简单的字符串就是一个正则表达式,精确匹配 hi 这个单词,但我们不仅仅需要找到这个 hi,还要找到一个单独 hi 的单词,或是含有 hi 的字符的一个单词...
分类:
其他好文 时间:
2015-05-26 10:39:31
阅读次数:
116
计算机科学的新学生通常难以理解递归程序设计的概念。递归思想之所以困难,原因在于它非常像是循环推理(circular reasoning)。它也不是一个直观的过程;当我们指挥别人做事的时候,我们极少会递归地指挥他们。Introduction 递归算法是一种直接或者间接调用自身函数或者方法的算法。递归....
分类:
编程语言 时间:
2015-05-26 10:38:31
阅读次数:
198
(从已经死了一次又一次终于挂掉的百度空间人工抢救出来的,发表日期2014-04-18)//标签的属性称作元素属性,在JS里对应的DOM对象的对应属性叫DOM属性。JS里的DOM属性名有时和原元素属性名不同。//==================================操作元素属性=====...
分类:
Web程序 时间:
2015-05-26 10:39:38
阅读次数:
122
(从已经死了一次又一次终于挂掉的百度空间人工抢救出来的,发表日期2014-05-06)写在所有css代码之前,对网页中所有同类元素的一个样式规则代码或者一些基础性公用元素的样式规则代码。1、空白:对于某两个组件之间的留白,使用,并添加一条.blank10{height: 10px;}。【或者不在初始...
分类:
Web程序 时间:
2015-05-26 10:40:44
阅读次数:
150