搜索关键字：爬取，搜索到4795个结果！码迷,mamicode.com！

Python爬虫实践 —— 5.便民生活网电话号码爬取

re简单实践分析网页，很容易得出规律： css字体颜色标记电话号码代码实现： import re import requests headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/ ...

分类：编程语言时间：2020-01-08 23:04:51 阅读次数：230

数据结构与算法简记--位图

位图问题问题1：如何实现网页爬虫中url去重功能？分析传统数据结构散列表、红黑树、跳表这些动态数据结构，都能支持快速地插入、查找数据。但通常爬虫爬取的网页数量级都比较大，假设为10亿个网页，估算一下散列表存储所需的内存：为了判重，我们把这 10 亿网页链接存储在散列表中。假设一个 UR ...

分类：编程语言时间：2020-01-08 21:02:20 阅读次数：121

几种常见的软件数据对接技术

目前数据孤岛林立，对接业务软件或者是获取软件中的数据存在较大困难,尤其是CS软件的数据爬取难度更大。系统对接最常见的方式是接口方式，运气好的情况下，能够顺利对接，但是接口对接方式常需花费大量时间协调各个软件厂商。除了软件接口，是否还有其他方式，小编总结了集中常见的数据采集技术供大家参考，主要分为 ...

分类：其他好文时间：2020-01-08 12:55:16 阅读次数：1143

robots.txt 协议

robots.txt 协议 1. Robits Exclusion Standard网络爬虫排除标准 2. 作用：网站告知网络爬虫那些页面可以爬取，那些不行。 3. 形式：在网站根目录下的robots.txt文件百度的robots协议： https://www.baidu.com/robots.t ...

分类：其他好文时间：2020-01-08 10:56:05 阅读次数：86

自学爬虫（二）

POST请求练习通过爬取课程成绩我发现所有的班级名也可以爬取，只是需要提交一个表单，它长这样既然知道了表单的内容，那我们可以通过urllib.parse.urlencode()方法把它封装到data里面去，访问的时候直接一起丢过去就可以了 page=1#可以自己写 data={'param_va ...

分类：其他好文时间：2020-01-08 10:34:45 阅读次数：85

python3：爬取的内容包含中文，输出后乱码的问题

需求：想要实现这样的功能：用户输入喜欢的电影名字，程序即可在电影天堂https://www.ygdy8.com爬取电影所对应的下载链接，并将下载链接打印出来遇到的问题：获取磁力的链接中包含中文，打印出来后乱码解决办法：手动指定编码方式：结果：参考： https://blog.csdn.net ...

分类：编程语言时间：2020-01-07 12:59:03 阅读次数：166

爬取12306火车票信息

# -*- coding: utf-8 -*-'''获取12306城市名和城市代码的数据文件名： parse_station.py'''import requestsimport reimport json #关闭https证书验证警告requests.packages.urllib3.disabl ...

分类：其他好文时间：2020-01-06 23:04:45 阅读次数：198

selenium爬取驾考宝典题目

要求 [x] Python3+ [x] Chrome驱动并已配置环境变量 [x] Selenium 研究页面发现驾考宝典的科目四页面URL都是以 https://www.jiakaobaodian.com/mnks/exercise/0 car kemu4 huaibei.html?id=9168 ...

分类：其他好文时间：2020-01-06 22:51:33 阅读次数：147

python爬取网页时返回http状态码HTTP Error 418

问题：urllib.error.HTTPError: HTTP Error 418: 问题描述：当我使用Python的request爬取网页时返回了http状态码为418, 错误描述：经过网上查询得知，418的意思是被网站的反爬程序返回的，网上解释为，418 I'm a teapotThe HTTP ...

分类：编程语言时间：2020-01-06 19:48:59 阅读次数：312

python使用redis实现ip代理池

一、代码 #使用apscheduler库定时爬取ip，定时检测ip删除ip，做了2层检测，第一层爬取后放入redis——db0进行检测，成功的放入redis——db1再次进行检测，确保获取的代理ip的可用性 import requests, redis import pandas import ra ...

分类：编程语言时间：2020-01-06 18:09:12 阅读次数：208

共4795条上一页 1 ... 79 80 81 82 83 ... 480 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)