码迷,mamicode.com
首页 > 其他好文 > 详细

亚马逊商品页面爬取

时间:2017-12-10 21:22:00      阅读:183      评论:0      收藏:0      [点我收藏+]

标签:gen   image   通过   print   for   header   浏览器   分享   body   

通过来源审查,访问错误,不支持直接访问:

技术分享图片

更改头信息,重新定义 user-agent,模拟浏览器(Mozilla/5.0浏览器标识字段,页面信息不全,可以成功访问):

技术分享图片

全代码:

技术分享图片

  import requests

     url="https://www.amazon.cn/?tag=baidu250-23&hvadid={creative}&ref=pz_ic_22fvxh4dwf_e"
        try:
    kv={‘user-agent‘:‘Mozilla/5.0‘}
    r=requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[1000:2000])
  except:
    print("爬取失败!")

 

亚马逊商品页面爬取

标签:gen   image   通过   print   for   header   浏览器   分享   body   

原文地址:http://www.cnblogs.com/2016024291-/p/8017954.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!