# -*- coding: utf-8 -*-# @Time : 2021/7/18 11:40# @Author :liuw# @File : testUrllib.py# @Software: PyCharmimport urllib.requestimport urllib.parse# 获取 ...
分类:
Web程序 时间:
2021-07-19 16:46:08
阅读次数:
0
相信有许多人都向往代码给人带来的魅力,今天带大家入门爬虫,感受一下,代码的快乐大家应该都听过爬虫,但是什么是爬虫呢? 其实可以了解为:通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程 爬虫可以做什么呢?1、收集数据 2、调研 3、刷流量和秒杀 当然更多是为了就业,赚取很多的玛尼了。 爬 ...
分类:
编程语言 时间:
2021-06-05 17:52:49
阅读次数:
0
### Python网络爬虫之requests模块 ###### 什么是requests模块 ? request模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占着半壁江山的地位。 ###### 为什么要使用request模块 ? ...
分类:
编程语言 时间:
2021-03-31 12:17:39
阅读次数:
0
那么我们的接口就是把我们上面的操作模拟人工操作一遍。
分类:
其他好文 时间:
2020-10-18 16:37:03
阅读次数:
17
什么是爬虫? 编写程序, 模拟浏览器访问服务器, 从而获取动态资源 爬虫基本流程 发送请求 通过模块或库模拟浏览器, 向目标站点发送请求, 请求可以携带headers和参数等信息, 然后等待服务器响应 获取响应 服务器正常响应, 会返回一个response, 即页面内容, 可能是html, json ...
分类:
其他好文 时间:
2020-09-08 20:44:36
阅读次数:
43
上次内容总结 requests作用:模拟浏览器发起请求 urllib:requests的前身 requests模块的编码流程: 指定url 发起请求: get(url,params,headers) post(url,data,headers) 获取响应数据 持久化存储 参数动态化: 有些情况下我们 ...
分类:
其他好文 时间:
2020-08-10 10:52:28
阅读次数:
64
1、什么是信息头?请求头 2、什么时候用?Cookie token 3、我们的场景设计?反爬虫添加信息头 模拟浏览器发送请求 user--agent 4、范围:分为全局和局部的吗?有全局和局部之分 (1)http信息头管理器如果放在某个http请求下,则只对该http请求生效 (2)http信息头管 ...
分类:
Web程序 时间:
2020-07-29 17:31:45
阅读次数:
106
0. 摘要 0.1 添加依赖 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.2</version> </dependency> 0. ...
分类:
编程语言 时间:
2020-07-26 15:44:20
阅读次数:
108
在对http://zkgg.tjtalents.com.cn/newzxxx.jsp这个网页爬取内容时,如果只使用Jsoup进行解析的话,起内部的a href标签内容无法获取到。 但是实际上通过 Document doc = Jsoup.connect(url).get(); 获取到的文档只是new ...
分类:
Web程序 时间:
2020-07-24 21:09:19
阅读次数:
96
这篇文章简要地介绍了一下爬虫、Scrapy框架,并讲述了一个基于Scrapy的B站爬虫小Demo。 ...
分类:
其他好文 时间:
2020-07-23 23:07:06
阅读次数:
75