码迷,mamicode.com
首页 > 编程语言 > 详细

python 爬虫新解

时间:2018-08-06 00:40:49      阅读:211      评论:0      收藏:0      [点我收藏+]

标签:选择   自己   network   xhr   work   htm   多个   python爬虫   构建   

关于python爬虫多个库的选择反反复复,总是不知道选择哪个,通过试过多个晚上的选择

  1. reques
  2. Beautifulsoup

以上两个库足够爬虫,已反爬虫网站数据的爬取。先上代码:

  • 库的调用:

技术分享图片

  • 网页链接获取:

 url=‘**********************‘

  • 网页reques headers构建,主要是反爬虫网站的伪装,获取地址在network中的XHR中的request headers的User-Agent,如下所示:(任何一个json文件都可以)

技术分享图片

  • 具体代码自己根据css或者是HTML格式去获取,正则表达式后面更新,个人具体代码如下所示:

技术分享图片

  • 输出如下所示:

技术分享图片

 

python 爬虫新解

标签:选择   自己   network   xhr   work   htm   多个   python爬虫   构建   

原文地址:https://www.cnblogs.com/yxxblog/p/9427907.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!