首页 > 编程语言 > 详细

python爬虫

时间：2018-12-26 00:27:22 阅读：244 评论：0 收藏：0 [点我收藏+]

标签：提取 pytho 取数 jsonp python3 python3.6 selenium 环境 windows环境

根据特定的需求，抓取指定的数据

代替浏览器上网

　　网页的特点：

　　　　1、网页都有自己唯一的URL

　　　　2、网页内容都是html结构

　　　　3、使用的都是http或https协议

　　爬虫步骤：

　　　　1、给一个URL

　　　　2、写程序，模拟浏览器访问URL

　　　　3、解析内容，提取数据

　　环境：

　　　　windows环境、linux环境

　　　　python3.6 　　64位

　　使用的工具：

　　　　1、库

　　　　　　urllib \ requests \ bs4

　　　　2、解析网页内容的知识

　　　　　　正则表达式、bs4、xpath、jsonpath

　　　　3、涉及到动态html

　　　　　　selenium+phantomjs、chromeheadless

　　　　4、scrapy框架

　　　　5、scrapy-redis组件

　　　　6、涉及到爬虫-反爬虫-反反爬虫的一些内容

　　　　　　UA、代理、验证码、动态页面等

http协议

　　　　

标签：提取 pytho 取数 jsonp python3 python3.6 selenium 环境 windows环境

原文地址：https://www.cnblogs.com/yellowhat/p/10176992.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！