爬虫 认识爬虫 什么是上网?爬虫要做的是什么? 我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程。 用户获取网络数据的方式是: 浏览器提交请求 下载网页代码 解析/渲染成页面。 而爬虫程序要做的就是: 模拟浏览器发送请求 下载网页代码 只提取有用的数据 存放于 ...
分类:
其他好文 时间:
2019-12-31 01:32:47
阅读次数:
70
主要用到内容:vue,coreui bootstrap框架,Ajax,springmvc搭建的接口,css之类的都是顺手拈来的简单的界面设计 网页代码: <!DOCTYPE html> <html lang="en" xmlns:v-bind="http://www.w3.org/1999/xhtm ...
分类:
Web程序 时间:
2019-12-09 01:44:17
阅读次数:
153
一.爬虫是什么 模拟浏览器发送请求 >下载网页代码 >只有提取有用的数据 >存放于数据库或文件中 二.爬虫的基本流程 1.发送请求 使用http库向目标站点发起请求,即发送一个Request Request包含:请求头,请求体 2.获取响应内容b 如果服务器能正常响应,则会得到一个Response ...
分类:
其他好文 时间:
2019-12-02 23:55:29
阅读次数:
195
一 什么是爬虫 1 什么是上网?爬虫要做的是什么? 我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程。 #3.1 只不过,用户获取网络数据的方式是: 浏览器提交请求->下载网页代码->解析/渲染成页面。 2而爬虫程序要做的就是: 模拟浏览器发送请求->下载网页 ...
分类:
其他好文 时间:
2019-11-25 18:47:19
阅读次数:
76
1 import requests 2 import bs4 3 4 #获取网页代码 5 def gethtml(url): 6 try: 7 response = requests.get(url) 8 response.raise_for_status() 9 response.encoding... ...
分类:
其他好文 时间:
2019-10-31 23:44:28
阅读次数:
212
项目上线 1.网页代码 2.服务器软件 3.需要一个服务器 局域网 外网环境 买一台服务器 设置电脑属性远程设置 把允许使用网络级别身份验证的远程桌面关了 阿里云 腾讯云 百度云 1.网页上线 nginx方到服务器 cd到nginx html就是www目录 访问目录 2.api上线 接口 postm ...
分类:
其他好文 时间:
2019-10-19 22:18:41
阅读次数:
196
HTML结构 一、HTML文档结构 1. 声明为HTML5文档(html版本说明) 2. :是文档的开始标记和结束标记。是html页面的根元素,在他们之间是文档的头部。包含文档的元数据(meta)数据 3. 定义网页标题,在浏览器标题栏显示 4. 之间的文本是可见的网页主题内容 注意: 对于中文网页 ...
分类:
Web程序 时间:
2019-10-14 01:38:07
阅读次数:
138
我们在编写网页代码时,首先应该做的就是设计好页面的布局形式,然后再往里面填充内容。网页布局的好与坏,直接决定了网页最终的展示效果。PC端常见的网页布局形式有两列布局、三列布局等。在CSS中,我们通常使用浮动(float)、定位(position)、显示模式(display)相关属性结合使用,以达到预期效果。一 文档流 文档流就是HTML文档内所有元素按照一定规律排列并显示的形式。 CSS文档
分类:
Web程序 时间:
2019-10-13 11:17:57
阅读次数:
77
以梨视频为例分析页面请求抓取网页数据。本次抓取梨视频生活分类页面下的部分视频数据,并保存到本地。 一、分析网页 打开抓取网页,查看网页代码结构,发现网页结构里面存放视频的地址并不是真正的视频地址。 进入视频详情页面查看后,可以在response中找到真正的视频地址。保存这个地址的并不是标签,而是一个 ...
分类:
系统相关 时间:
2019-09-30 22:05:45
阅读次数:
119