码迷,mamicode.com
首页 > 其他好文 > 详细

爬取今日头条中的图片

时间:2018-04-13 17:58:45      阅读:145      评论:0      收藏:0      [点我收藏+]

标签:network   arc   review   targe   select   找不到   相关   data   word   

今日头条搜索 :cos.

网址:https://www.toutiao.com/search/?keyword=cos

 

分析1 在network的doc中的Preview,看到只有一句话,并没有页面的信息,所以判定存在异步加载。

 技术分享图片

 

分析2  在XHR中,果然找到相关的json数据。注意,只有key值是 media_creator_id 才会是页面中显示的。

技术分享图片

  推荐一个chrome上的插件。JSON-handler,可以将json数据显示的更美观。

  这便是其效果。技术分享图片

 

分析3 在data下拿到每个item 的url,访问这个url。这里面有点玄机。

  比如,我们访问这个url:https://www.toutiao.com/a6543541911368499725/

技术分享图片

   如果你用BeautifulSoup的select或者find方法,都找不到图片的 a 标签。尽管前端的html页面中会显示这个 a 标签。

  那么,图片的地址放在那里了呢?

  实际上可以通过Network-->doc-->Response查到

  技术分享图片

 

爬取今日头条中的图片

标签:network   arc   review   targe   select   找不到   相关   data   word   

原文地址:https://www.cnblogs.com/654321cc/p/8821341.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!