1.使用GET方式抓取数据,GET方法用于获取或者查询资源信息 #导入requests包 import requests #网址 url = 'http://www.cntour.cn/' #GET方式,获取网页数据 strhtml = requests.get(url) #strhtml是一个ur ...
分类:
编程语言 时间:
2020-05-26 00:49:54
阅读次数:
120
1.我们爬虫一般使用的模块为urllib和requests模块,现在requests基本代替了urllib2.爬虫的基本步骤 第一步:获取指定的url(要爬取的数据发起的请求url) 第二步:发起请求(根据请求方式(POST,GET)发起请求)response = requsts.get(url) ...
分类:
其他好文 时间:
2020-05-21 13:23:27
阅读次数:
48
讲在前面的话:以下内容为爬虫学习总结,大部分内容摘自:https://kaiwu.lagou.com/course/courseInfo.htm?courseId=46#/detail/pc?id=1665 我们在浏览网站的过程中,经常会遇到需要登录的情况,而有些网页只有登录之后才可以访问,而且登录 ...
分类:
其他好文 时间:
2020-05-10 12:41:47
阅读次数:
63
一、urllib库 1、了解urllib Urllib是python内置的HTTP请求库 包括:urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser robot.txt解析模块 二、Reques ...
分类:
编程语言 时间:
2020-05-05 12:38:20
阅读次数:
73
快速使用 from bs4 import BeautifulSoup soup = BeautifulSoup(html,'lxml') 一、基本使用 1、标签选择器 soup.标签名 获取这个标签内容,如果有多个该标签,就返回第一个 获取名称 soup.title.name 获取属性 soup.p ...
分类:
编程语言 时间:
2020-05-05 12:28:47
阅读次数:
73
response = requests.get("http://www.baidu.com") response.content.decode("utf-8") 返回bytes类型 decode解码 response.text request.encoding = "gbk" # 修改编码 返回st ...
分类:
编程语言 时间:
2020-05-05 10:55:57
阅读次数:
82
先说一下本人学习爬虫的过程吧,先是下载了requests库,BeautifulSoup库,并根据MOOC上和网络上的资料进行爬虫学习。个人比较喜欢钢琴曲,就尝试去爬取爬取世界十大钢琴名曲简介。根据所学,写下了如下代码: 但得到的结果是(内容太多就只截取一部分): 不难发现,里面很多内容并不是我想要的 ...
分类:
其他好文 时间:
2020-04-30 21:12:23
阅读次数:
71
这个解析库对于学过前端的人非常友好,因为其有强大的CSS选择器,也可以增加或删除class,方便的提取数据或者属性。 初始化 字符串初始化 这个就是传入html代码的字符串格式,简单的requests库可以获得该参数。 以知乎 新闻页为例 r.text返回的是一个经过解码后的字符串,是unicode ...
分类:
编程语言 时间:
2020-04-24 01:01:23
阅读次数:
81
前言 这是为学爬虫学习的最基本的一些语法知识,实用至上,没有对C++那么深入。 python确实挺....简单的,不是难度方面。 输出 使用print()直接输出即可 输出单个对象 输出多个对象 设置相关参数 格式化输出 输出语句中加入占位符,并在后面使用 指定内容,可以使用多个占位符 print( ...
分类:
编程语言 时间:
2020-04-23 20:50:20
阅读次数:
73
爬虫这一节内容说难也难,说简单也简单,这就要看每个人要求了!我写了两个爬虫程序,算是分享一下我的心路历程吧!毕竟我是要搞AI和CTF的呢! 首先是在学习爬虫几天后的粗糙产品,简单的爬取了一下QQ音乐的榜单(感觉不正规) 同样,主要技术路径是requests-bs4的方法来执行的,通过import r ...
分类:
其他好文 时间:
2020-04-22 13:31:45
阅读次数:
68