豆瓣电影TOP 250爬取-->>>数据保存到MongoDB 豆瓣电影TOP 250网址 要求: 1.爬取豆瓣top 250电影名字、演员列表、评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库 items.py # -*- coding: utf-8 ...
分类:
数据库 时间:
2019-12-25 13:10:26
阅读次数:
83
人生苦短,我用 Python 前文传送门: "小白学 Python 爬虫(1):开篇" "小白学 Python 爬虫(2):前置准备(一)基本类库的安装" "小白学 Python 爬虫(3):前置准备(二)Linux基础入门" "小白学 Python 爬虫(4):前置准备(三)Docker基础入门" ...
分类:
编程语言 时间:
2019-12-24 09:31:23
阅读次数:
73
1 . 什么是 AJAX ? AJAX = 异步 JavaScript 和 XML。 AJAX 是一种用于创建快速动态网页的技术。 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。 传统的网页(不使用 AJAX) ...
分类:
编程语言 时间:
2019-12-24 00:01:02
阅读次数:
387
原理:我的上篇博客 import requests import time from bs4 import BeautifulSoup def get_html(url): ''' 获得 HTML ''' headers = { 'user-agent': 'Mozilla/5.0 (Windows ...
分类:
编程语言 时间:
2019-12-23 13:26:11
阅读次数:
82
爬取某网站名字的详细信息 部分代码 # 翻页 # 每页50条数据 pageNum = 0 if counts % 50 == 0: pageNum = counts / 50 else: pageNum = counts // 50 + 1 while page <= pageNum: page + ...
分类:
编程语言 时间:
2019-12-22 22:56:52
阅读次数:
262
一、反爬策略 1、请求头 ——user-agent ——referer ——cookie 2、访问频率限制 ——代理池 ——再用户访问高峰期进行爬取,冲散日志。12-13 7-10 ——设置等待时长。time.sleep(3) 3、ajax异步请求,用接口获取数据 4、能一次性获取的数据,绝不发送第 ...
分类:
编程语言 时间:
2019-12-22 20:24:50
阅读次数:
127
Ajax数据爬取 简介 数据加载是异步加载,局部刷新。web开发的前后端分离通常都用Ajax交互,降低了服务器直接渲染页面带来的压力 基本原理 发送请求 解析内容 渲染网页 其实就是 向后端指定接口发送请求,返回数据,渲染页面 JS对Ajax底层的实现,实际上是新建了一个XMLHttpRequest ...
分类:
Web程序 时间:
2019-12-22 18:10:39
阅读次数:
84
scrapy框架(三) CrawlSpider类 创建CrawlSpider # 创建项目后 $ scrapy genspider -t crawl spider_name website_domain ? url 就是你想要爬取的网址 注意:分析本地文件是一定要带上路径,scrapy shell默 ...
分类:
其他好文 时间:
2019-12-22 18:04:35
阅读次数:
74
耶鲁大学(Yale University)是一所坐落于美国康涅狄格州纽黑文的私立研究型大学,创于1701年,初名“大学学院”(Collegiate School),是全美历史第三悠久的高等学府,亦为常春藤盟校成员之一。该校教授阵容、学术创新、课程设置和场馆设施等方面堪称一流。除了研究生课程之外,耶鲁 ...
分类:
其他好文 时间:
2019-12-22 16:20:53
阅读次数:
82
在本爬虫程序中共有三个模块: 1、爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情况 2、爬虫模块:包含三个小模块,URL管理器、网页下载器、网页解析器。 (1)URL管理器:对需要爬取的URL和已经爬取过的URL进行管理,可以从URL管理器中取出一个待爬取的URL,传递给网页下载器。 (2)网页下 ...
分类:
编程语言 时间:
2019-12-22 12:42:58
阅读次数:
136