码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫抓取豆瓣电影

时间:2016-06-02 00:27:41      阅读:644      评论:0      收藏:0      [点我收藏+]

标签:

抓取电影名称以及评分,并排序(代码丑炸)

 1 import urllib
 2 import re
 3 from bs4 import BeautifulSoup
 4 def get(p):
 5     t=0
 6     k=1
 7     n=1
 8     book_score=[]
 9     book_a=[]
10     while t<=p:
11         print "正在获取第%d页..."%k
12         k=k+1
13         url="https://movie.douban.com/tag/%s?start=%d&type=T"%(%E5%8A%A8%E7%94%BB,t)
14         res = urllib.urlopen(url)
15         soup = BeautifulSoup(res.read(),"html.parser")
16         book_div = soup.find(attrs={"class":"article"})
17         book_score.extend(book_div.findAll(attrs={class:rating_nums}))
18         book_a.extend(book_div.findAll(attrs={"style":"font-size:12px;"}))
19         t=t+20
20     return book_score,book_a
21 
22 p=input("输入页数")
23 a,b=get((p-1)*20)
24 t=0
25 y=[]
26 x=[]
27 for i in a:
28     y.append((i.string))
29 for i in b:
30     x.append(i)
31 u=min(len(x),len(y))
32 for i in range(u):
33     for j in range(i+1,u):
34         if(y[i]<y[j]):
35             t=y[j]
36             y[j]=y[i]
37             y[i]=t
38             t=x[j]
39             x[j]=x[i]
40             x[i]=t
41             
42 for i in range(u):
43     print y[i],x[i].string

爬取结果:

输入页数2
正在获取第1页...
正在获取第2页...
9.3 瓦力(台) / 太空奇兵·威E(港)
9.2 神隐少女(台) / Spirited Away
9.2 优兽大都会(港) / 动物方城市(台)
9.0 Tenkû no shiro Rapyuta / Laputa: Castle in the Sky
8.9 冲天救兵(港) / 天外奇迹(台)
8.8 狮子王3D
8.8 古鲁家族(港/台) / 克鲁德一家
8.8 萤火之社 / Hotarubi no mori e
8.8 呼啸山城 / 霍尔的移动城堡
8.8 海洋幻想曲(台) / Le Chant de la Mer
8.8 甲铁城的卡巴内里 / 甲铁城的尸人
8.8 魔法公主 / 幽灵少女
8.7 破坏王拉尔夫 / 破坏王大冒险
8.7 借物少女艾莉缇(台) / 借东西的小矮人亚莉亚蒂(港)
8.7 驯龙记(港)
8.7 玩转脑朋友(港) / 脑筋急转弯(台)
8.6 怪兽公司(港) / 怪物公司
8.6 大英雄联盟(港) / 大英雄天团(台)
8.5 卑鄙的我 / 坏蛋奖门人(港)
8.5 秒速五厘米 / 秒速5公分
8.5 我叫坂本我最屌
8.4 小羊肖恩大电影 / 超级无敌羊咩咩大电影之咩最劲(港)
8.4 月亮守护者
8.4 冰河世纪 / 冰原历险记
8.3 魔雪奇缘(港) / 冰雪大冒险
8.3 大圣归来 / 猴王
8.2 海底奇兵 / 寻找尼莫
8.1 卑鄙的我2 / 坏蛋奖门人2(港)
8.1 The Little Prince
8.0 怪兽电力公司2:怪兽大学 / 怪物公司2:怪物大学
8.0 熊猫阿宝2 / 阿宝正传2
7.9 与森林共舞(台) / 丛林之书
7.9 熊猫阿宝 / 阿宝正传
7.8 熊猫阿宝3 / 阿宝正传3
7.7 怪物的孩子(台) / Bakemono no Ko
7.5 尖叫旅社2(台) / 鬼灵精怪大酒店2(港)
7.3 小黄人 / 迷你兵团(港)
7.2 愤怒鸟大电影(港) / 愤怒鸟玩电影(台)
7.1 恐龙大时代(港) / 美好的恐龙世界

python爬虫抓取豆瓣电影

标签:

原文地址:http://www.cnblogs.com/a1225234/p/5551503.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!