码迷,mamicode.com
首页 > 编程语言 > 详细

Python开发简单爬虫之静态网页抓取篇:爬取“豆瓣电影 Top 250”电影数据

时间:2018-04-13 21:24:10      阅读:234      评论:0      收藏:0      [点我收藏+]

标签:技术   x64   机器人   element   蓝天   记忆   美国   浏览器   笔记   

目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/top250

1)确定目标网站的请求头:


 

打开目标网站,在网页空白处点击鼠标右键,选择“检查”。(小编使用的是谷歌浏览器)。

点击“network”,在弹出页面若长时间没有数据显示,则试一下F5刷新。

技术分享图片

可以得到目标网页中Host和User-Agent两项。

2)找到爬取目标数据(即电影名称)在页面中的位置


 

右键“检查”,选择“Elements”。

或者直接找到一个电影名称,比如《肖申克的救赎》,对它右键,选择“检查”。

技术分享图片

 

3)相关代码:


 

import requests
from bs4 import BeautifulSoup
def get_movies():
    headers={
        user-agent:Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36,
        Host:movie.douban.com
    }        #定义爬取目标网页的请求头,务必和我们前面通过‘检查’到的请求头一致
    movie_list=[]
    for i in range(0,10):    #目标所包含的250项数据分布在10页之中
        link=https://movie.douban.com/top250?start=+str(i*25)   #定义每页的网址 
        r=requests.get(link,headers=headers,timeout=10)    #构建每页中的抓取请求request
        print (str(i+1),页码响应状态码:,r.status_code)
        soup=BeautifulSoup(r.text,lxml)    #使用BeautifulSoup模块对抓取到的网页内容进行解析
        div_list=soup.find_all(div,class_=hd)    #将得到的目标电影数据所在的div存储到list中
        for each in div_list:
            movie=each.a.span.text.strip()    #获取精确的目标电影数据(即电影名字)
            movie_list.append(movie)
    return movie_list
movies=get_movies()
print(movies)

 输出:

1 页码响应状态码: 200
2 页码响应状态码: 200
3 页码响应状态码: 200
4 页码响应状态码: 200
5 页码响应状态码: 200
6 页码响应状态码: 200
7 页码响应状态码: 200
8 页码响应状态码: 200
9 页码响应状态码: 200
10 页码响应状态码: 200
[肖申克的救赎, 霸王别姬, 这个杀手不太冷, 阿甘正传, 美丽人生, 千与千寻, 泰坦尼克号, 辛德勒的名单, 盗梦空间, 机器人总动员, 海上钢琴师, 三傻大闹宝莱坞, 忠犬八公的故事, 放牛班的春天, 大话西游之大圣娶亲, 楚门的世界, 龙猫, 教父, 熔炉, 星际穿越, 乱世佳人, 触不可及, 无间道, 当幸福来敲门, 天堂电影院, 怦然心动, 十二怒汉, 搏击俱乐部, 少年派的奇幻漂流, 鬼子来了, 蝙蝠侠:黑暗骑士, 指环王3:王者无敌, 活着, 天空之城, 疯狂动物城, 罗马假日, 大话西游之月光宝盒, 飞屋环游记, 窃听风暴, 两杆大烟枪, 飞越疯人院, 控方证人, 闻香识女人, 哈尔的移动城堡, 海豚湾, V字仇杀队, 辩护人, 死亡诗社, 教父2, 美丽心灵, 指环王2:双塔奇兵, 指环王1:魔戒再现, 情书, 饮食男女, 摔跤吧!爸爸, 美国往事, 狮子王, 钢琴家, 天使爱美丽, 七宗罪, 素媛, 被嫌弃的松子的一生, 小鞋子, 致命魔术, 看不见的客人, 音乐之声, 勇敢的心, 剪刀手爱德华, 本杰明·巴顿奇事, 低俗小说, 西西里的美丽传说, 拯救大兵瑞恩, 黑客帝国, 沉默的羔羊, 入殓师, 蝴蝶效应, 让子弹飞, 玛丽和马克思, 春光乍泄, 大闹天宫, 心灵捕手, 阳光灿烂的日子, 幽灵公主, 末代皇帝, 第六感, 重庆森林, 禁闭岛, 大鱼, 布达佩斯大饭店, 狩猎, 哈利·波特与魔法石, 射雕英雄传之东成西就, 致命ID, 甜蜜蜜, 断背山, 一一, 告白, 猫鼠游戏, 阳光姐妹淘, 加勒比海盗, 上帝之城, 摩登时代, 穿条纹睡衣的男孩, 阿凡达, 爱在黎明破晓前, 消失的爱人, 风之谷, 爱在日落黄昏时, 侧耳倾听, 倩女幽魂, 红辣椒, 超脱, 恐怖直播, 萤火虫之墓, 驯龙高手, 幸福终点站, 菊次郎的夏天, 小森林 夏秋篇, 喜剧之王, 岁月神偷, 借东西的小人阿莉埃蒂, 神偷奶爸, 七武士, 杀人回忆, 海洋, 真爱至上, 电锯惊魂, 贫民窟的百万富翁, 谍影重重3, 喜宴, 东邪西毒, 记忆碎片, 雨人, 怪兽电力公司, 疯狂原始人, 黑天鹅, 英雄本色, 燃情岁月, 卢旺达饭店, 虎口脱险, 恋恋笔记本, 海边的曼彻斯特, 傲慢与偏见, 7号房的礼物, 哈利·波特与死亡圣器(下), 小森林 冬春篇, 萤火之森, 完美的世界, 教父3, 纵横四海, 二十二, 魂断蓝桥, 猜火车, 荒蛮故事, 穿越时空的少女, 玩具总动员3, 花样年华, 雨中曲, 唐伯虎点秋香, 超能陆战队, 时空恋旅人, 我是山姆, 蝙蝠侠:黑暗骑士崛起, 人工智能, 心迷宫, 浪潮, 冰川时代, 香水, 朗读者, 罗生门, 追随, 爆裂鼓手, 一次别离, 撞车, 未麻的部屋, 可可西里, 请以你的名字呼唤我, 战争之王, 血战钢锯岭, 地球上的星星, 恐怖游轮, 梦之安魂曲, 达拉斯买家俱乐部, 被解救的姜戈, 阿飞正传, 牯岭街少年杀人事件, 谍影重重, 谍影重重2, 魔女宅急便, 碧海蓝天, 忠犬八公物语, 惊魂记, 头脑特工队, 房间, 再次出发之纽约遇见你, 青蛇, 秒速5厘米, 哪吒闹海, 东京物语, 海盗电台, 末路狂花, 绿里奇迹, 终结者2:审判日, 源代码, 模仿游戏, 勇闯夺命岛, 新龙门客栈, 黑客帝国3:矩阵革命, 这个男人来自地球, 卡萨布兰卡, 一个叫欧维的男人决定去死, 城市之光, 变脸, 荒野生存, 迁徙的鸟, 你的名字。, E.T. 外星人, 初恋这件小事, 无耻混蛋, 发条橙, 美国丽人, 黄金三镖客, 英国病人, 小萝莉的猴神大叔, 爱在午夜降临前, 燕尾蝶, 无人知晓, 非常嫌疑犯, 叫我第一名, 穆赫兰道, 疯狂的石头, 勇士, 无敌破坏王, 国王的演讲, 步履不停, 血钻, 上帝也疯狂, 彗星来的那一夜, 枪火, 蓝色大门, 大卫·戈尔的一生, 遗愿清单, 我爱你, 千钧一发, 荒岛余生, 爱·回家, 黑鹰坠落, 麦兜故事, 暖暖内含光, 聚焦]

完成既定目标。

 

 

参考书目:《Python 网络爬虫 》

 

Python开发简单爬虫之静态网页抓取篇:爬取“豆瓣电影 Top 250”电影数据

标签:技术   x64   机器人   element   蓝天   记忆   美国   浏览器   笔记   

原文地址:https://www.cnblogs.com/dudududu/p/8823871.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!