码迷,mamicode.com
首页 > 2017年05月05日 > 全部分享
2.3 基于宽度优先搜索的网页爬虫原理讲解
上一节我们下载并使用了宽度优先的爬虫,这一节我们来具体看一下这个爬虫的原理。 首先,查看HTML.py的源代码。 第一个函数: 这个函数的作用是抓取url的内容(二进制内容,可以直接传进beautifulsoup里分析)。之所以显得比较复杂,是因为加入了一些异常处理,使得函数的可靠性更强一些。另外也 ...
分类:Web程序   时间:2017-05-05 23:06:29    阅读次数:222
python实现QQ机器人(自己主动登录,获取群消息,发送群消息)
一次偶然的机会我看见了一个群里的一个QQ号总是依据你所发的消息自己主动回复,当时非常感觉到奇妙。我知道能够模拟登录站点,没想到居然也能模拟登录QQ,首先自己想到的就是怎样实现模拟登录PC端的QQ, 開始研究了下,发现QQ所发送的包都非常难理解。 于是就转到了网页版的QQ,由于在网页里能够捕获全部的请 ...
分类:编程语言   时间:2017-05-05 23:06:20    阅读次数:3234
JAVA log4j日志文件使用
//1.导入jar包,log4j-1.2.17.jar//2.src下创建log4j.properties文件//3.配置properties文件/*log4j.rootLogger(默认是对整个工程生效)=DEBUG,stdout(控制台),a, b, …日志级别(ALL<DEBUG<INFO<W ...
分类:编程语言   时间:2017-05-05 23:06:11    阅读次数:203
内网环境中公网域名解析成内网地址的问题
防火墙默认开启dns的alg功能,是不会把域名服务器回应的服务器公网地址反回给客户端的,只返回内网地址。NAT设备对来自外网的DNS相应报文进行DNSALG处理时,由于载荷中只包含域名和应用服务器的外网IP地址(不包含传输协议类型和端口号),当接口上存在多条NAT服务器配置且使用..
分类:其他好文   时间:2017-05-05 23:06:02    阅读次数:150
洛谷【P1351】codevs3728 联合权值
题目描述 无向连通图G 有n 个点,n - 1 条边。点从1 到n 依次编号,编号为 i 的点的权值为W i ,每条边的长度均为1 。图上两点( u , v ) 的距离定义为u 点到v 点的最短距离。对于图G 上的点对( u, v) ,若它们的距离为2 ,则它们之间会产生Wu×Wv 的联合权值。 请 ...
分类:其他好文   时间:2017-05-05 23:05:55    阅读次数:228
gulp
三、安装必要的Gulp插件 压缩css(gulp-minify-css) js代码校验(gulp-jshint) 合并js文件(gulp-concat) 压缩js代码(gulp-uglify) 压缩图片(gulp-imagemin) 文件重命名 (gulp-rename) 自动刷新页面(gulp-l ...
分类:其他好文   时间:2017-05-05 23:05:45    阅读次数:219
stage划分算法
stage划分算法总结最后一个RDD创建finalstagefinalstage倒推通过宽依赖,来进行新的stage划分使用递归,依次提交stage,从父stage开始源码org.apache.spark.scheduler包下stage划分算法由submitStage和getMissingParentStages方法组成第一步:使用触发job的最后一个RDD,创建fi..
分类:编程语言   时间:2017-05-05 23:05:37    阅读次数:219
jdbc连接数据库工具包模板
jdbc连接数据库操作 jdbc连接数据库模板,收藏可做模板使用(小型工程,一般大工程都会用框架,c3p0等连接,不考虑此种方法!)。 配置文件的使用(使用配置文件可以使我们后期的修改更加方便,当然,也可以使用java中的枚举效果也是相同的,不过在这里推荐大家使用配置文件) 在这里使用mysql做类 ...
分类:数据库   时间:2017-05-05 23:05:27    阅读次数:306
AJAX
一、什么是AJAX AJAX (Asynchronous JavaScript and XML)是异步 JavaScript 和 XML的缩写。 通过和服务器进行少量数据的交换,实现对网页的局部更新。 二、为什么要用AJAX AJAX最大的特点就是,通过少量的数据交换,以异步的模式,实现对网页的局部 ...
分类:Web程序   时间:2017-05-05 23:05:20    阅读次数:225
5.5上午
...
分类:其他好文   时间:2017-05-05 23:05:05    阅读次数:123
linux rsync配置及用法
rsync介绍rsync是一款开源的、快速的、多功能的、可实现全量及增量的本地或远程数据同步备份的优秀工具。并且可以不进行改变原有数据的属性信息、实现数据的备份迁移特性。Rsync软件适用于unlx、linux、windows等多种操作系统平台。可以实现本地或者异地备份rsync包含的功能1、..
分类:系统相关   时间:2017-05-05 23:04:56    阅读次数:197
task分配算法核心原理描述
把stage生成的每个task创建一个taskset对象双重for循环,遍历所有taskset,以及每种本地化级别本地化级别有:1.process_local:进程本地化RDD的partition和task进入同一个executor中,速度最快2.node_local:RDD的partition和task不在一个executor上,但是在一个worker上3.NO_P..
分类:编程语言   时间:2017-05-05 23:04:50    阅读次数:178
Html
经过昨天的自我介绍开班典礼之后,今天终于开始了课程的学习,就像平常在学校一样,学习总是从简单开始的,所以我们开始从基本的什么叫HTML开始,HTML也叫超文本标记语言(Hyper Text Markup Language),当然用到这个标签就得用相应的软件老师推荐了DW和Visual Studio, ...
分类:Web程序   时间:2017-05-05 23:04:43    阅读次数:139
LWDB
题意: 给一棵 $n$ 个节点的树,维护两种操作: 1.将距离 $x$ $distance \leq d$ 的点染成 $c$ 2.询问 $x$ 的颜色。 解法: 首先将染色可以转换为每个时间对应一个颜色,问题转化为区间取 $max$ 动态树分治,即可。 考虑朴素点分治中的每一个重心,将其管辖的所有点 ...
分类:数据库   时间:2017-05-05 23:04:33    阅读次数:266
MVC设计模式在网站中的应用
MVC设计模式在网站中的应用 以淘宝的购物车为例 一、结合六个基本质量属性 可修改性 采用MVC设计模式的时候,可以将视图、模型、控制器分析,将用户动作、数据表示、应用数据分离开来,如果用户需要以不同的视图来展示,只需要修改视图中的代码即可,对于模型和控制器的代码,则不需要做改动,即可满足要求,使得... ...
分类:Web程序   时间:2017-05-05 23:04:24    阅读次数:214
MVC实例应用模式
结合《xxx需求系统》分析一下。 结合六个质量属性: 可用性:正常情况下,系统7*24小时可工作。 可修改性:使用配置文件,修改配置文件即可。对于一些公共的方法,进行封装,修改时,只需修改封装的方法,不必修改调用方法的代码。 性能:提高系统响应时间,不让用户感到延迟。 安全性:对密码等信息进行加密存 ...
分类:Web程序   时间:2017-05-05 23:04:16    阅读次数:203
镜像下载(下载镜像文件)
所谓镜像文件其实和rar ZIP压缩包类似,它将特定的一系列文件按照一定的格式制作成单一的文件,以方便用户下载和使用,例如一个操作系统、游戏等。它最重要的特点是可以被特定的软件识别并可直接刻录到光盘上。其实通常意义上的镜像文件可以再扩展一下,在镜像文件中可以包含更多的信息。比如说系统文件、引导文件、 ...
分类:其他好文   时间:2017-05-05 23:04:08    阅读次数:291
1336条   上一页 1 ... 5 6 7 8 9 10 11 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!