``` import requests import re import json import time from requests.exceptions import RequestException def get_one_page(url): try: headers = { 'User-A... ...
分类:
编程语言 时间:
2019-04-29 20:51:46
阅读次数:
159
目标站点:https://maoyan.com/board/6 ...
分类:
其他好文 时间:
2019-04-23 19:06:56
阅读次数:
123
这次是动态字体库的字体反爬 猫眼电影榜单国内票房榜,地址:https://maoyan.com/board/1 可以看出又是字体反爬,需要获得字体文件,定位字体文件的url,在页面或css里搜@font-face或font-famil 在network选font标签刷新页面几次发现每次用的字体都不一 ...
分类:
其他好文 时间:
2019-04-15 16:16:14
阅读次数:
749
最近想研究下python爬虫,于是就找了些练习项目试试手,熟悉一下,猫眼电影可能就是那种最简单的了。 1 看下猫眼电影的top100页面 分了10页,url为:https://maoyan.com/board/4?offset=0 我们发起请求,得到相应: 我们 我使用的是requests库,这是一 ...
分类:
编程语言 时间:
2019-04-09 23:27:38
阅读次数:
299
抓取猫眼电影top100的正则、bs4、pyquery、xpath实现方法 ...
分类:
其他好文 时间:
2019-04-06 14:07:10
阅读次数:
95
利用requests库和正则表达式 抓取猫眼电影TOP100 (requests比urllib使用更方便,由于没有学习HTML系统解析库 选用re) 1.目标 抓取电影名称 时间 评分 图片等 url http://maoyan.com/board/4 结果以文件形式保存 2.分析 offset 代 ...
分类:
编程语言 时间:
2019-01-17 12:06:10
阅读次数:
223
import requests from bs4 import BeautifulSoup url_list = [] all_name = [] all_num = [] all_actor = [] all_score = [] class Product_url(): # 这个地方传入的url... ...
分类:
编程语言 时间:
2018-12-31 17:23:19
阅读次数:
218
1 #抓取猫眼电影,https://maoyan.com/board/4 榜单电影列表 2 import requests 3 import re 4 from requests.auth import HTTPBasicAuth 5 6 #定义爬虫工具类 7 class SpiderTools()... ...
分类:
编程语言 时间:
2018-12-28 18:31:10
阅读次数:
228
#coding=utf-8 _date_ = '2018/12/9 16:18' import requests import re import json import time def get_one_page(url): headers={ 'User-Agent':'Mozilla/5.0 ... ...
分类:
其他好文 时间:
2018-12-09 17:53:07
阅读次数:
276