```python # -*- coding:utf-8 -*- #@Time : 2020-5-22 10:52 #@Author: Henry.ZHAO #@File : main.py # coding:utf-8 import re import requests from urllib i... ...
分类:
其他好文 时间:
2020-05-22 19:38:47
阅读次数:
62
1.我们爬虫一般使用的模块为urllib和requests模块,现在requests基本代替了urllib2.爬虫的基本步骤 第一步:获取指定的url(要爬取的数据发起的请求url) 第二步:发起请求(根据请求方式(POST,GET)发起请求)response = requsts.get(url) ...
分类:
其他好文 时间:
2020-05-21 13:23:27
阅读次数:
48
1、请求headers处理 我们有时请求服务器时,无论get或post请求,会出现403错误,这是因为服务器拒绝了你的访问,这时我们可以通过模拟浏览器的头部信息进行访问,这样就可以解决反爬设置的问题。 import requests # 创建需要爬取网页的地址 url = 'https://www. ...
分类:
编程语言 时间:
2020-05-21 00:33:50
阅读次数:
75
爬虫采集信息时为什么会被封IP,这就像你楼下超时免费送礼品,你一个小时去了六趟,那超市肯定不会再给你礼品啊,脾气不好还有可能把你轰走,所以我需要换个衣服、发型让工作人员认不出来。这就和换IP一个道理,许多网站都会对爬虫行为进行识别,一旦认定你的行为是爬虫,便会锁定你的IP,导致爬虫爬取不了信息。 爬 ...
分类:
其他好文 时间:
2020-05-20 15:47:19
阅读次数:
57
需求: 为了做测试或者对爬虫程序爬取数据进行分析汇总,我们时常会将数据生成报表,但是如果我们想将报表生成在Excel中,这时候就可以借助xlsxwriter第三方包来生成图表 分析: 为生成excel准备多维数组类型的数据->数据插入到Excel中->对数据按系列划分生成图表 第一步:准备数据: 使 ...
分类:
编程语言 时间:
2020-05-20 10:51:28
阅读次数:
64
from bs4 import BeautifulSoupimport requestsimport pandas as pdheader = {'Referer': 'https://movie.douban.com/subject/33420285/comments?status=P','Use ...
分类:
编程语言 时间:
2020-05-19 22:41:42
阅读次数:
115
爬取简书思路: 1)使用selenium模拟浏览器打开网页2)由于分页是通过点击【阅读更多】按钮来加载数据的,因此需要模拟单击该按钮3)确定要爬取多少页的数据,如果要爬取10页的数据,就需要模拟单机10次【阅读更多】按钮4)单击该按钮后,需要定位这个信息列表元素,然后使用xpath提取数据5)提取到 ...
分类:
其他好文 时间:
2020-05-19 20:19:19
阅读次数:
48
# 爬取网易音乐 import requests from bs4 import BeautifulSoup import urllib.request headers = {"origin": "https://music.163.com", "referer": "https://music.1 ...
分类:
编程语言 时间:
2020-05-19 18:40:16
阅读次数:
107
利用Python爬虫爬取目标小说并保存到本地 小说地址:http://book.zongheng.com/showchapter/749819.html(目录地址) 通过小说目录获取小说所有章节对应的url地址,然后逐个访问解析得到每一章节小说的内容,最后保存到本地文件内 文章中的代码只是第一个版本 ...
分类:
编程语言 时间:
2020-05-19 12:46:19
阅读次数:
62
功能描述 输入:大学排名URL链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:requests-bs4 定向爬虫:仅对输入URL进行爬取,不扩展爬取 程序的结构设计 步骤1:从网络上获取大学排名网页内容 getHTMLText() 步骤2:提取网页内容中信息到合适的数据结构 ...
分类:
其他好文 时间:
2020-05-19 12:31:40
阅读次数:
107