var bodyParser = require('body-parser'); var urlencodedParser = bodyParser.urlencoded({ extended: false }); 路由中使用 router.post('/', urlencodedParser, f ...
分类:
Web程序 时间:
2018-07-20 23:03:46
阅读次数:
521
一 遍历单个域名 网页爬虫,就是对目标网页进行捉取,然后遍历到数据信息,然后有链接的继续遍历,如此回调。 第一步:将页面的所有链接获取 运行效果图 发现会存在些没用用的数据,有些href的值只是作为页面块的跳转,我们可以使用正则表达式进行优化过滤掉,只获取带有HTML结尾的链接 第二步:递归获取网页 ...
分类:
编程语言 时间:
2018-07-19 13:46:45
阅读次数:
161
以下内容均为python3.6.*代码 学习爬虫,首先有学会使用urllib库,这个库可以方便的使我们解析网页的内容,本篇讲一下它的基本用法 解析网页 构造请求 有些网站通过获取浏览器信息判断是否是机器在操作 因此我们需要构造请求头 get请求传输数据 提交表单经常用到的就是post发送或者get发 ...
分类:
编程语言 时间:
2018-07-17 16:38:05
阅读次数:
177
#测试网址: http://localhost/blog/testurl.php?id=5 //获取域名或主机地址 echo $_SERVER['HTTP_HOST']."<br>"; #localhost //获取网页地址 echo $_SERVER['PHP_SELF']."<br>"; #/b ...
分类:
其他好文 时间:
2018-07-17 16:34:24
阅读次数:
110
1 import json 2 import re 3 from urllib.request import urlopen # urllib用法:https://www.jb51.net/article/65279.htm 4 5 # 思路:通过url获取网页内容--》匹配需要内容---》拿到内容... ...
分类:
编程语言 时间:
2018-07-13 20:47:30
阅读次数:
138
NLTK是python环境中的一个非常流行的NLP库,这篇记录主要记录NLTK的一些常见操作 1.去除网页html标记 我们常常通过爬虫获取网页信息,然后需要去除网页的html标签。为此我们可以这么做: 2.统计词频 这里使用的tokens就是上面图中的tokens 3.去除停用词 停用词就是类似t ...
分类:
Web程序 时间:
2018-07-09 11:18:34
阅读次数:
254
爬虫就是获取网页并提取和保存信息的自动化程序 1.获取网页 爬虫首先要做的就是获取网页,这里就是获取网页的源代码。源代码里包含了网页的部分有用信息。只要把源代码获取到,就可以从提取信息了。 向网站服务器发送一个请求,返回的响应体就是网页的源码。 2.提取信息 获取网页源码后,提取信息就是分析网页源码 ...
分类:
其他好文 时间:
2018-07-07 10:47:52
阅读次数:
133
Requests的使用 requests的常用七大方法 创建一个请求,是支撑其他方法的基础。 获取网页的主要方法,对应于HTPP的GET 获取网页的头信息。对应HTTP的HEAD 向HTML网页提交Post请求的方法。对应于HTPP的POST 向HTML网页提交PUT请求的方法。对应于HTTP的PU ...
分类:
其他好文 时间:
2018-07-07 00:20:36
阅读次数:
209
习题: 1. 定义一个方法get_num(num),num参数是列表类型,判断列表里面的元素为数字类型。其他类型则报错,并且返回一个偶数列表:(注:列表里面的元素为偶数)。 2. 定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容。提示(可以了解python的 ...
分类:
编程语言 时间:
2018-07-02 14:48:51
阅读次数:
167
获取网页元素的绝对位置: 首先,每个元素都有offsetTop和offsetLeft属性,表示该元素的左上角与父容器(offsetParent对象)左上角的距离。所以,只需要将这两个值进行累加,就可以得到该元素的绝对坐标。 通过两个属性来实现元素定位: 获取网页元素的相对位置: 有了绝对位置以后,获 ...
分类:
其他好文 时间:
2018-06-24 14:07:47
阅读次数:
194