码迷,mamicode.com
首页 > 其他好文 > 详细

用pyquery 初步改写崔庆才的 抓取猫眼电影排行(正在更新)特意置顶,提醒自己更新

时间:2018-06-16 20:34:19      阅读:278      评论:0      收藏:0      [点我收藏+]

标签:网络爬虫   PQ   use   ext   int   评分   head   mozilla   放弃   

 

目前正在学Python爬虫,正在读崔庆才的《Python3网络爬虫开发实战》,之前学习正则表达式,但是由于太难,最后放弃了(学渣的眼泪。。。。),在这本书上的抓取猫眼电影排行上,后来自学了pyquery,发现用pyquery可以解决这个问题,目前自己试着写了代码

 

这个是抓取一页的情况的代码(没有图的链接以及排名还有其他90页的情况)

import requests
from pyquery import PyQuery as pq

def get_one_page(url):
    headers = {
        User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36
    }
    html = requests.get(url=url,headers=headers)
    return html.text

def parse_one_page(html):
    doc = pq(html)
    items = doc(dd .board-item-main .board-item-content .movie-item-info).items()
    for item in items:
        name = item.find(.name).text()
        star = item.find(.star).text()
        time = item.find(.releasetime).text()
        score = item.siblings(.movie-item-number .score .integer).text() + item.siblings(.movie-item-number .score .fraction).text()
        print(电影名: + name + \n +
              star + \n + time + \n + 评分:+score +\n)

url = http://maoyan.com/board/4
html = get_one_page(url)
parse_one_page(html)

 

用pyquery 初步改写崔庆才的 抓取猫眼电影排行(正在更新)特意置顶,提醒自己更新

标签:网络爬虫   PQ   use   ext   int   评分   head   mozilla   放弃   

原文地址:https://www.cnblogs.com/Weixu-Liu/p/9191216.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!