码迷,mamicode.com
首页 > 其他好文 > 详细

爬取CVPR 2018过程中遇到的坑

时间:2018-09-23 18:12:20      阅读:225      评论:0      收藏:0      [点我收藏+]

标签:技术分享   技术   pen   正则   request   red   图片   alt   pytho   

爬取 CVPR 2018 过程中遇到的坑

使用语言及模块

  • 语言: Python 3.6.6
  • 模块: re requests lxml bs4

过程

一开始都挺顺利的,先获取到所有文章的链接再逐个爬取获取内容,
中间有一部分的是用正则进行匹配出想要的内容,写完了就想全部跑一遍试试吧。
爬到一半出错了,看了一下是这篇出问题了。
好吧,那就f12看看什么情况。
技术分享图片
emmmmm....
跟之前的差不多啊...
直接复制下来匹配试试
技术分享图片
。。。都能匹配到啊。。。
技术分享图片
直到....emmmm....看看不print出来的是啥玩意...
技术分享图片
\xa0 ??? 大哥你谁啊,怎么跑进来了呢???

\xa0

\xa0是什么?
技术分享图片

最后

最后修改了一下正则...
嗯..解决了

爬取CVPR 2018过程中遇到的坑

标签:技术分享   技术   pen   正则   request   red   图片   alt   pytho   

原文地址:https://www.cnblogs.com/darkexisted/p/9692894.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!