0. 参考 https://developer.mozilla.org/zh-CN/docs/Web/CSS/@font-face 这是一个叫做@font-face 的CSS @规则 ,它允许网页开发者为其网页指定在线字体。 通过这种作者自备字体的方式,@font-face 可以消除对用户电脑字体的 ...
分类:
Web程序 时间:
2018-05-12 22:30:01
阅读次数:
1423
HTML代码 <!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>猫眼电影 - 一网打尽好电影</title> <link rel="stylesheet" href="../css/reset.css"> <lin ...
分类:
其他好文 时间:
2018-05-06 16:17:27
阅读次数:
443
一:分析网站 目标站和目标数据目标地址:http://maoyan.com/board/4?offset=20目标数据:目标地址页面的电影列表,包括电影名,电影图片,主演,上映日期以及评分。 二:上代码 (1):导入相应的包 (2):分析网页 通过检查发现需要的内容位于网页中的<dd>标签内。通过翻 ...
分类:
其他好文 时间:
2018-04-06 22:33:33
阅读次数:
340
在看代码的时候遇到一个snowflake算法,查了一下发现是Twitter的一个分布式ID生成算法,能够在分布式环境中生成一个全局唯一的ID,然后上网找了一些业界的做法,目前看到了携程和美团的方案,做一下笔记。背景1在复杂分布式系统中,往往需要对大量的数据和消息进行唯一标识。如在美团点评的金融、支付、餐饮、酒店、猫眼电影等产品的系统中,数据日渐增长,对数据分库分表后需要有一个唯一ID来标识一条数据
分类:
其他好文 时间:
2018-04-03 11:28:13
阅读次数:
163
今天有小朋友说想看一下猫眼TOP100的爬取数据,要TOP100的名单,让我给发过去,其实很简单,先来看下目标网站: 建议大家都用谷歌浏览器: 这是我们要抓取的内容,100个数据,很少 我们看一下页面结构 100部电影分十个页码,也就是一页10个电影,抓取方式为10页循环抓取 先看下代码: 引入模块 ...
分类:
Web程序 时间:
2018-02-10 11:22:30
阅读次数:
208
不知道是不是我学习太晚的原因,猫眼电影这网站我用requests进行爬取源码直接返回给我一个您的访问被禁止。作为萌新的我登时就傻了,还好认真听了之前的课,直接换selenium抓了源码,虽然效率惨不忍睹,但多少也能运行了,下面上代码 多线程那块这写法不太好用.... 而且有的时候爬取的数据不足100 ...
分类:
其他好文 时间:
2017-12-04 15:31:36
阅读次数:
234
参考来源: 静觅丨崔庆才的个人博客 项目地址: copywang/spiders_collection 实现功能: 遇到的问题: 未解决问题: 原因:源代码中展示的并不是纯粹的数字。而是在页面使用了font-face定义了字符集,并通过unicode去映射展示。简单介绍下这种新型的web-fongt ...
分类:
其他好文 时间:
2017-11-25 11:32:53
阅读次数:
154
1 import requests 2 from requests.exceptions import RequestException 3 import re 4 import json 5 from multiprocessing import Pool 6 7 def get_one_page... ...
分类:
其他好文 时间:
2017-11-18 20:00:34
阅读次数:
192