码迷,mamicode.com
首页 >  
搜索关键字:爬取    ( 4795个结果
爬取百度图片
```python # -*- coding:utf-8 -*- #@Time : 2020-5-22 10:52 #@Author: Henry.ZHAO #@File : main.py # coding:utf-8 import re import requests from urllib i... ...
分类:其他好文   时间:2020-05-22 19:38:47    阅读次数:62
爬虫学习的基础篇
1.我们爬虫一般使用的模块为urllib和requests模块,现在requests基本代替了urllib2.爬虫的基本步骤 第一步:获取指定的url(要爬取的数据发起的请求url) 第二步:发起请求(根据请求方式(POST,GET)发起请求)response = requsts.get(url) ...
分类:其他好文   时间:2020-05-21 13:23:27    阅读次数:48
python爬虫之headers处理、网络超时、代理服务问题处理
1、请求headers处理 我们有时请求服务器时,无论get或post请求,会出现403错误,这是因为服务器拒绝了你的访问,这时我们可以通过模拟浏览器的头部信息进行访问,这样就可以解决反爬设置的问题。 import requests # 创建需要爬取网页的地址 url = 'https://www. ...
分类:编程语言   时间:2020-05-21 00:33:50    阅读次数:75
爬虫遇到IP限制怎么办
爬虫采集信息时为什么会被封IP,这就像你楼下超时免费送礼品,你一个小时去了六趟,那超市肯定不会再给你礼品啊,脾气不好还有可能把你轰走,所以我需要换个衣服、发型让工作人员认不出来。这就和换IP一个道理,许多网站都会对爬虫行为进行识别,一旦认定你的行为是爬虫,便会锁定你的IP,导致爬虫爬取不了信息。 爬 ...
分类:其他好文   时间:2020-05-20 15:47:19    阅读次数:57
Python对数据写入Execl文件并生成图表
需求: 为了做测试或者对爬虫程序爬取数据进行分析汇总,我们时常会将数据生成报表,但是如果我们想将报表生成在Excel中,这时候就可以借助xlsxwriter第三方包来生成图表 分析: 为生成excel准备多维数组类型的数据->数据插入到Excel中->对数据按系列划分生成图表 第一步:准备数据: 使 ...
分类:编程语言   时间:2020-05-20 10:51:28    阅读次数:64
python爬虫-静态爬取豆瓣评论
from bs4 import BeautifulSoupimport requestsimport pandas as pdheader = {'Referer': 'https://movie.douban.com/subject/33420285/comments?status=P','Use ...
分类:编程语言   时间:2020-05-19 22:41:42    阅读次数:115
爬取简书
爬取简书思路: 1)使用selenium模拟浏览器打开网页2)由于分页是通过点击【阅读更多】按钮来加载数据的,因此需要模拟单击该按钮3)确定要爬取多少页的数据,如果要爬取10页的数据,就需要模拟单机10次【阅读更多】按钮4)单击该按钮后,需要定位这个信息列表元素,然后使用xpath提取数据5)提取到 ...
分类:其他好文   时间:2020-05-19 20:19:19    阅读次数:48
Python-网易音乐下载
# 爬取网易音乐 import requests from bs4 import BeautifulSoup import urllib.request headers = {"origin": "https://music.163.com", "referer": "https://music.1 ...
分类:编程语言   时间:2020-05-19 18:40:16    阅读次数:107
Python爬虫爬取目标小说并保存到本地
利用Python爬虫爬取目标小说并保存到本地 小说地址:http://book.zongheng.com/showchapter/749819.html(目录地址) 通过小说目录获取小说所有章节对应的url地址,然后逐个访问解析得到每一章节小说的内容,最后保存到本地文件内 文章中的代码只是第一个版本 ...
分类:编程语言   时间:2020-05-19 12:46:19    阅读次数:62
爬虫 中国大学排名
功能描述 输入:大学排名URL链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:requests­-bs4 定向爬虫:仅对输入URL进行爬取,不扩展爬取 程序的结构设计 步骤1:从网络上获取大学排名网页内容 getHTMLText() 步骤2:提取网页内容中信息到合适的数据结构 ...
分类:其他好文   时间:2020-05-19 12:31:40    阅读次数:107
4795条   上一页 1 ... 30 31 32 33 34 ... 480 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!