原理 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。 然后,它将根据一 ...
分类:
其他好文 时间:
2019-03-29 13:00:15
阅读次数:
145
决策树基于时间的各个判断条件,由各个节点组成,类似一颗树从树的顶端,然后分支,再分支,每个节点由响的因素组成 决策树有两个阶段,构造和剪枝 构造: 构造的过程就是选择什么属性作为节点构造,通常有三种节点 1. 根节点:就是树的最顶端,最开始那个节点 (选择哪些属性作为根节点) 2. 内部节点: 就是 ...
分类:
编程语言 时间:
2019-03-21 10:29:56
阅读次数:
244
1、欢迎参加《机器学习》 2、什么是机器学习? 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它 ...
分类:
其他好文 时间:
2019-03-20 20:44:53
阅读次数:
180
1什么是复杂度分析? 分别用时间复杂度(执行的快慢)和空间复杂度(内存的消耗 )两个概念来描述性能问题,二者统称为复杂度. 复杂度就是用来分析算法执行效率与数据规模之间增长关系。 2.为什么要进行复杂度分析? 1.和性能测试相比,复杂度分析有不依赖执行环境、成本低、效率高、易操作、指导性强的特点。2 ...
分类:
其他好文 时间:
2019-03-18 01:19:50
阅读次数:
197
知识回顾: 第一篇《Jvm垃圾回收器(基础篇)》主要讲述了判断对象的生死?两种基础判断对象生死的算法、引用计数法、可达性分析算法,方法区的回收。在第二篇《Jvm垃圾回收器(算法篇)》中主要介绍了垃圾回收的几种常用算法:标记-清除、复制算法、标记-整理算法、分代收集算法。那么接下来我们重点研究Jvm的 ...
分类:
其他好文 时间:
2019-03-11 16:23:01
阅读次数:
181
一、学习方向:python应用方向很多,必须明确学习方向全栈开发:就是web应用开发,是用来写网站后台的。数据分析:就是做大数据分析的,数据量级起码是千万级别的,做的是大数据分析。网络爬虫:其实属于数据分析的部分,就是获取数据源的方式。不管是阿拉伯数据还是说字符串,都是数据的一种。需要将某些指标量化成数据据。机器学习:这也是python最有魅力的地方,善于做图形分析,算法建模等等。所以python
分类:
编程语言 时间:
2019-03-05 11:03:29
阅读次数:
176
J我们知道学习数据结构与算法主要是解决一个「快」和「省」的问题,如何让代码执行更快、如何更节省空间。那么如何来考量你的代码的执行效率呢,我们总要有一个标准,这就是我今天所讲的复杂度分析,不夸张的说,掌握好复杂度分析,数据结构与算法你就掌握了一半,所有的算法都逃不出复杂度分析的范畴。 复杂度分析包括时 ...
分类:
编程语言 时间:
2019-02-18 17:26:18
阅读次数:
178
八、垃圾回收标记算法 1.对象被判定成垃圾的标准 没有被其他对象引用 2.判断对象是否为垃圾的算法 (1)引用计数法 优点and缺点 (2)可达性分析算法 ...
分类:
编程语言 时间:
2019-02-12 21:23:33
阅读次数:
204
在开始分析算法原理之前,简单说明下rsync的增量传输功能。 假设待传输文件为A,如果目标路径下没有文件A,则rsync会直接传输文件A,如果目标路径下已存在文件A,则发送端视情况决定是否要传输文件A。rsync默认使用"quick check"算法,它会比较源文件和目标文件(如果存在)的文件大小和... ...
分类:
编程语言 时间:
2019-01-14 10:57:03
阅读次数:
218
第一章 算法引论 算法分析的目的:估算该算法所需的内存空间和运行时间。 分析算法复杂度的目的:用以比较同一问题的不同算法;时间和空间的增长率作为衡量的标准。 算法是对解决这个问题的方法和步骤的描述。 算法的基本特征:有穷性、确定性、可行性、0到多个输入、1到多个输出。 一个好的算法应具有正确性、可读 ...
分类:
编程语言 时间:
2019-01-06 11:54:33
阅读次数:
276