标签:网络爬虫 PQ use ext int 评分 head mozilla 放弃
目前正在学Python爬虫,正在读崔庆才的《Python3网络爬虫开发实战》,之前学习正则表达式,但是由于太难,最后放弃了(学渣的眼泪。。。。),在这本书上的抓取猫眼电影排行上,后来自学了pyquery,发现用pyquery可以解决这个问题,目前自己试着写了代码
这个是抓取一页的情况的代码(没有图的链接以及排名还有其他90页的情况)
import requests from pyquery import PyQuery as pq def get_one_page(url): headers = { ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36‘ } html = requests.get(url=url,headers=headers) return html.text def parse_one_page(html): doc = pq(html) items = doc(‘dd .board-item-main .board-item-content .movie-item-info‘).items() for item in items: name = item.find(‘.name‘).text() star = item.find(‘.star‘).text() time = item.find(‘.releasetime‘).text() score = item.siblings(‘.movie-item-number .score .integer‘).text() + item.siblings(‘.movie-item-number .score .fraction‘).text() print(‘电影名:‘ + name + ‘\n‘ + star + ‘\n‘ + time + ‘\n‘ + ‘评分:‘+score +‘\n‘) url = ‘http://maoyan.com/board/4‘ html = get_one_page(url) parse_one_page(html)
用pyquery 初步改写崔庆才的 抓取猫眼电影排行(正在更新)特意置顶,提醒自己更新
标签:网络爬虫 PQ use ext int 评分 head mozilla 放弃
原文地址:https://www.cnblogs.com/Weixu-Liu/p/9191216.html