通过爬取豆瓣的电影排行榜 import requests url = "https://movie.douban.com/j/chart/top_list" #params是get请求带参数 #data是post请求带参数 #重新进行封装参数 param = { "type":"24", "inte ...
分类:
编程语言 时间:
2021-06-22 18:36:49
阅读次数:
0
一、爬虫定义 简单说的话,爬虫就像一个虚拟的虫子,然后利用这只虫子,我们可以在网上获取到我们想要的信息。 二、爬虫的工作原理 浏览器工作原理 一般情况下,我们获取数据都是打开浏览器,然后搜索关键字,浏览器去工作,然后显示出来我们要的数据,我们再进行复制粘贴或者其他操作。 类似于下图 这里的客户端是我 ...
分类:
编程语言 时间:
2020-09-18 01:50:15
阅读次数:
40
1.使用GET方式抓取数据,GET方法用于获取或者查询资源信息 #导入requests包 import requests #网址 url = 'http://www.cntour.cn/' #GET方式,获取网页数据 strhtml = requests.get(url) #strhtml是一个ur ...
分类:
编程语言 时间:
2020-05-26 00:49:54
阅读次数:
120
一、urllib库 1、了解urllib Urllib是python内置的HTTP请求库 包括:urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser robot.txt解析模块 二、Reques ...
分类:
编程语言 时间:
2020-05-05 12:38:20
阅读次数:
73
快速使用 from bs4 import BeautifulSoup soup = BeautifulSoup(html,'lxml') 一、基本使用 1、标签选择器 soup.标签名 获取这个标签内容,如果有多个该标签,就返回第一个 获取名称 soup.title.name 获取属性 soup.p ...
分类:
编程语言 时间:
2020-05-05 12:28:47
阅读次数:
73
response = requests.get("http://www.baidu.com") response.content.decode("utf-8") 返回bytes类型 decode解码 response.text request.encoding = "gbk" # 修改编码 返回st ...
分类:
编程语言 时间:
2020-05-05 10:55:57
阅读次数:
82
这个解析库对于学过前端的人非常友好,因为其有强大的CSS选择器,也可以增加或删除class,方便的提取数据或者属性。 初始化 字符串初始化 这个就是传入html代码的字符串格式,简单的requests库可以获得该参数。 以知乎 新闻页为例 r.text返回的是一个经过解码后的字符串,是unicode ...
分类:
编程语言 时间:
2020-04-24 01:01:23
阅读次数:
81
1,下载curl:https://blog.csdn.net/weixin_42139662/article/details/88037763 请求头参数:https://blog.csdn.net/xiaochengyihe/article/details/80910913 (讲的比较详细) 查看 ...
分类:
编程语言 时间:
2020-02-04 23:35:31
阅读次数:
106
(一)Scrapy库概述 1,安装:pip install scrapy失败; 运行D:\Python\Python36\python.exe -m pip install --upgrade pip命令升级pip命令失败; 修改Python36文件的权限:https://www.cnblogs.c ...
分类:
编程语言 时间:
2020-02-03 00:02:03
阅读次数:
144
今天主要完成了pyqt库及相应工具的安装,以及简单的实现了界面功能。 开发工具IDE选择pycharm,因为之前就进行过python爬虫学习,所以IDE早就以及安装配置好了。 还有一点需要提的就是pyqt提供一个可视化工具叫QTDesigner,就像我们之前做过的C#一样,直接拖动控件完成界面布局就 ...
分类:
其他好文 时间:
2020-02-01 20:57:05
阅读次数:
77