import reimport urllib.request# 获取网页文件def getHtml(url): response = urllib.request.urlopen('https://www.zhipin.com/?ka=header-home'); return response.r ...
分类:
编程语言 时间:
2019-04-22 00:19:23
阅读次数:
287
动态网页数据抓取 什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用A ...
分类:
Web程序 时间:
2019-04-18 17:21:49
阅读次数:
252
写入文件的不只是文本,还有二进制等,字节流是什么样式关系到能否写入文件。 以获取网页写入文件操作示例: 在这里注意有 编码格式,在window下默认是gbk,网页或者Linux下是 unicode编码。 w:以写方式打开,a:以追加模式打开 (从 EOF 开始, 必要时创建新文件)r+:以读写模式打 ...
分类:
编程语言 时间:
2019-04-13 01:09:53
阅读次数:
185
1. 简单说明爬虫原理 程序模拟浏览器送请求来获取网页代码,提取出有用的数据,储存起来。 2. 理解爬虫开发过程 1).简要说明浏览器工作原理; 浏览器提交请求 >下载网页代码 >解析成页面 2).使用 requests 库抓取网站数据; requests.get(url) 获取校园新闻首页html ...
分类:
其他好文 时间:
2019-03-31 23:18:14
阅读次数:
221
1.首先获取网页内容的方法 html = requests.get(url,headers = headers,proxies= proxys) header 指模拟浏览器头,proxys代理IP,requests指Python获取内容的对象 2.这样一句话就可以快速获取网页内容了,获取到了网页内容 ...
分类:
编程语言 时间:
2019-03-30 13:26:42
阅读次数:
135
<?phpheader("Content-type:text/html;charset=utf-8"); 请求的url $url = 'http://dsc.taobaocdn.com/i8/560/330/566337787959/TB1eUs_LlLoK1RjSZFu8qtn0Xla.desc% ...
分类:
Web程序 时间:
2019-03-13 15:16:12
阅读次数:
220
部分jquery函数获取方法: alert($(document).scrollTop()); //获取滚动条到顶部的垂直高度alert($(document).scrollLeft()); //获取滚动条到左边的垂直宽度 ...
分类:
Web程序 时间:
2019-03-10 17:57:21
阅读次数:
195
注意:如果想爬取详情页的信息请按须添加方法 import requests import os import re import threading from lxml import etree #爬去详情页得HTML内容 class CnBeta(object): def get_congtent ...
分类:
编程语言 时间:
2019-03-09 23:18:59
阅读次数:
272
今天在使用正则表达式时未能解决实际问题,于是使用bs4库完成匹配,通过反复测试,最终解决了实际的问题,加深了对bs4.BeautifulSoup模块的理解。 爬取流程 前奏: 分析糗事百科热图板块的网址,因为要进行翻页爬取内容,所以分析不同页码的网址信息是必要的 具体步骤: 1,获取网页内容(url ...
分类:
编程语言 时间:
2019-02-19 00:54:13
阅读次数:
181
在做爬虫时请求网页的requests库是必不可少的,我们常常会用到 res = resquests.get(url) 方法,在获取网页的html代码时常常使用res的text属性: html = res.text,在下载图片或文件时常常使用res的content属性: 下面我们来看看 'text' ...
分类:
其他好文 时间:
2019-02-13 13:12:33
阅读次数:
708