上一节我们下载并使用了宽度优先的爬虫,这一节我们来具体看一下这个爬虫的原理。 首先,查看HTML.py的源代码。 第一个函数: 这个函数的作用是抓取url的内容(二进制内容,可以直接传进beautifulsoup里分析)。之所以显得比较复杂,是因为加入了一些异常处理,使得函数的可靠性更强一些。另外也 ...
分类:
Web程序 时间:
2017-05-05 23:06:29
阅读次数:
222
一次偶然的机会我看见了一个群里的一个QQ号总是依据你所发的消息自己主动回复,当时非常感觉到奇妙。我知道能够模拟登录站点,没想到居然也能模拟登录QQ,首先自己想到的就是怎样实现模拟登录PC端的QQ, 開始研究了下,发现QQ所发送的包都非常难理解。 于是就转到了网页版的QQ,由于在网页里能够捕获全部的请 ...
分类:
编程语言 时间:
2017-05-05 23:06:20
阅读次数:
3234
//1.导入jar包,log4j-1.2.17.jar//2.src下创建log4j.properties文件//3.配置properties文件/*log4j.rootLogger(默认是对整个工程生效)=DEBUG,stdout(控制台),a, b, …日志级别(ALL<DEBUG<INFO<W ...
分类:
编程语言 时间:
2017-05-05 23:06:11
阅读次数:
203
防火墙默认开启dns的alg功能,是不会把域名服务器回应的服务器公网地址反回给客户端的,只返回内网地址。NAT设备对来自外网的DNS相应报文进行DNSALG处理时,由于载荷中只包含域名和应用服务器的外网IP地址(不包含传输协议类型和端口号),当接口上存在多条NAT服务器配置且使用..
分类:
其他好文 时间:
2017-05-05 23:06:02
阅读次数:
150
题目描述 无向连通图G 有n 个点,n - 1 条边。点从1 到n 依次编号,编号为 i 的点的权值为W i ,每条边的长度均为1 。图上两点( u , v ) 的距离定义为u 点到v 点的最短距离。对于图G 上的点对( u, v) ,若它们的距离为2 ,则它们之间会产生Wu×Wv 的联合权值。 请 ...
分类:
其他好文 时间:
2017-05-05 23:05:55
阅读次数:
228
三、安装必要的Gulp插件 压缩css(gulp-minify-css) js代码校验(gulp-jshint) 合并js文件(gulp-concat) 压缩js代码(gulp-uglify) 压缩图片(gulp-imagemin) 文件重命名 (gulp-rename) 自动刷新页面(gulp-l ...
分类:
其他好文 时间:
2017-05-05 23:05:45
阅读次数:
219
stage划分算法总结最后一个RDD创建finalstagefinalstage倒推通过宽依赖,来进行新的stage划分使用递归,依次提交stage,从父stage开始源码org.apache.spark.scheduler包下stage划分算法由submitStage和getMissingParentStages方法组成第一步:使用触发job的最后一个RDD,创建fi..
分类:
编程语言 时间:
2017-05-05 23:05:37
阅读次数:
219
jdbc连接数据库操作 jdbc连接数据库模板,收藏可做模板使用(小型工程,一般大工程都会用框架,c3p0等连接,不考虑此种方法!)。 配置文件的使用(使用配置文件可以使我们后期的修改更加方便,当然,也可以使用java中的枚举效果也是相同的,不过在这里推荐大家使用配置文件) 在这里使用mysql做类 ...
分类:
数据库 时间:
2017-05-05 23:05:27
阅读次数:
306
一、什么是AJAX AJAX (Asynchronous JavaScript and XML)是异步 JavaScript 和 XML的缩写。 通过和服务器进行少量数据的交换,实现对网页的局部更新。 二、为什么要用AJAX AJAX最大的特点就是,通过少量的数据交换,以异步的模式,实现对网页的局部 ...
分类:
Web程序 时间:
2017-05-05 23:05:20
阅读次数:
225
rsync介绍rsync是一款开源的、快速的、多功能的、可实现全量及增量的本地或远程数据同步备份的优秀工具。并且可以不进行改变原有数据的属性信息、实现数据的备份迁移特性。Rsync软件适用于unlx、linux、windows等多种操作系统平台。可以实现本地或者异地备份rsync包含的功能1、..
分类:
系统相关 时间:
2017-05-05 23:04:56
阅读次数:
197
把stage生成的每个task创建一个taskset对象双重for循环,遍历所有taskset,以及每种本地化级别本地化级别有:1.process_local:进程本地化RDD的partition和task进入同一个executor中,速度最快2.node_local:RDD的partition和task不在一个executor上,但是在一个worker上3.NO_P..
分类:
编程语言 时间:
2017-05-05 23:04:50
阅读次数:
178
经过昨天的自我介绍开班典礼之后,今天终于开始了课程的学习,就像平常在学校一样,学习总是从简单开始的,所以我们开始从基本的什么叫HTML开始,HTML也叫超文本标记语言(Hyper Text Markup Language),当然用到这个标签就得用相应的软件老师推荐了DW和Visual Studio, ...
分类:
Web程序 时间:
2017-05-05 23:04:43
阅读次数:
139
题意: 给一棵 $n$ 个节点的树,维护两种操作: 1.将距离 $x$ $distance \leq d$ 的点染成 $c$ 2.询问 $x$ 的颜色。 解法: 首先将染色可以转换为每个时间对应一个颜色,问题转化为区间取 $max$ 动态树分治,即可。 考虑朴素点分治中的每一个重心,将其管辖的所有点 ...
分类:
数据库 时间:
2017-05-05 23:04:33
阅读次数:
266
MVC设计模式在网站中的应用 以淘宝的购物车为例 一、结合六个基本质量属性 可修改性 采用MVC设计模式的时候,可以将视图、模型、控制器分析,将用户动作、数据表示、应用数据分离开来,如果用户需要以不同的视图来展示,只需要修改视图中的代码即可,对于模型和控制器的代码,则不需要做改动,即可满足要求,使得... ...
分类:
Web程序 时间:
2017-05-05 23:04:24
阅读次数:
214
结合《xxx需求系统》分析一下。 结合六个质量属性: 可用性:正常情况下,系统7*24小时可工作。 可修改性:使用配置文件,修改配置文件即可。对于一些公共的方法,进行封装,修改时,只需修改封装的方法,不必修改调用方法的代码。 性能:提高系统响应时间,不让用户感到延迟。 安全性:对密码等信息进行加密存 ...
分类:
Web程序 时间:
2017-05-05 23:04:16
阅读次数:
203
所谓镜像文件其实和rar ZIP压缩包类似,它将特定的一系列文件按照一定的格式制作成单一的文件,以方便用户下载和使用,例如一个操作系统、游戏等。它最重要的特点是可以被特定的软件识别并可直接刻录到光盘上。其实通常意义上的镜像文件可以再扩展一下,在镜像文件中可以包含更多的信息。比如说系统文件、引导文件、 ...
分类:
其他好文 时间:
2017-05-05 23:04:08
阅读次数:
291