1.Python 爬虫介绍 一、什么是爬虫 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。 二、Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。 调度器:相当于一台电脑的CPU ...
分类:
编程语言 时间:
2018-11-11 18:00:02
阅读次数:
159
首先搭建虚拟环境,创建工程 <! more 修改 获取网页信息 ArticleSpider/spiders/jobbole.py ArticleSpider/items.py ArticleSpider/pipelines.py ArticleSpider/settings.py 创建一个文件夹 , ...
分类:
其他好文 时间:
2018-11-04 21:22:50
阅读次数:
144
为什么要使用Go写爬虫呢? 对于我而言,这仅仅是练习Golang的一种方式。 所以,我没有使用爬虫框架,虽然其很高效。 为什么我要写这篇文章? 将我在写爬虫时找到资料做一个总结,希望对于想使用Golang写爬虫的你能有一些帮助。 爬虫主要需要解决两个问题: 1. 获取网页 2. 解析网页 如果这两个 ...
分类:
其他好文 时间:
2018-11-03 02:24:58
阅读次数:
310
1、浏览器内核由两部分组成:渲染引擎和JavaScript引擎 渲染引擎:负责获取网页(HTML、XML、图形等)、整理信息(CSS)以及计算网页显示方式 JavaScript引擎:负责解析和执行JavaScript代码来实现网页的动态效果。(由于JavaScript引擎越来越独立,内核倾向于指渲染 ...
分类:
Web程序 时间:
2018-11-01 00:57:15
阅读次数:
236
这个是对最近学习的一次总结吧。前两天写的,今天才有时间写博客。 偶然点开笔趣阁的网址(https://www.biquge.cc/),突然觉得我应该可以用爬虫实现小说下载。有这个想法我就开始尝试了。 爬虫呀,说白了就是程序自动模拟浏览器操作来获取网页的内容。 先用F12查看元素,查看章节网址链接,和 ...
分类:
移动开发 时间:
2018-10-24 12:12:27
阅读次数:
429
# by luffycity.comimport refrom urllib.request import urlopendef getPage(url): # 获取网页的字符串 response = urlopen(url) return response.read().decode('utf-8 ...
分类:
其他好文 时间:
2018-10-15 16:16:50
阅读次数:
173
1 def getTitle(self,url): 2 #get title 3 title = 'time out' 4 try: 5 self.res = requests.get(url,timeout=5) 6 7 8 soup = Beau... ...
分类:
Web程序 时间:
2018-10-11 17:04:12
阅读次数:
162
这是一个函数,只要调用这个函数,就可以获取网页的内容 调用方法 ...
分类:
编程语言 时间:
2018-10-06 10:39:14
阅读次数:
236
什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据 爬 ...
分类:
其他好文 时间:
2018-10-04 21:33:04
阅读次数:
157