需求 抓取2018年四川大学自主招生初审通过名单信息。 具备知识 1.正则表达式。 2.python基础语法,爬虫和数据库操作。 操作 1.抓取网页。 2.解析出需要的数据。 3.继续抓取下一个页面,重复12步骤直到到尾页停止。 4.将解析出来的数据存入数据库。 实例 采用python3.6和mys ...
分类:
编程语言 时间:
2018-06-18 16:00:31
阅读次数:
183
强大又灵活的网页解析库,如果觉得正则表达式写起来太麻烦,而BeautifulSoup语法太难记,但是熟悉jQuery的语法,那么PyQuery就是一个绝佳选择。 安装:pip3 install pyquery 初始化 字符串初始化 URL初始化 这种是传入一个url,会自动请求这个url,把源代码给 ...
分类:
其他好文 时间:
2018-06-16 16:16:01
阅读次数:
136
简单爬虫架构 动态运行流程 URL管理器的作用 URL管理器的3种实现方式 网页下载器的作用 Python网页下载器的种类 urllib2下载网页的3种方法 网页解析器的作用 Python的几种网页解析器 结构化解析依赖DOM树 Beautiful Soup语法 代码举例: 1.创建Beautifu ...
分类:
编程语言 时间:
2018-06-03 23:42:36
阅读次数:
265
1、网页打开检查器,到达该路径,再刷新网页,点击第一个“Attractions”文件,出现headers(重要)、response、cookies等信息 2、定位元素位置方法,找唯一特征: 用鼠标右键定位该元素的标签位置,找出这类信息的唯一性属性,最后用“标签+属性”的方式定位该字段信息。如定位图片 ...
分类:
Web程序 时间:
2018-05-23 02:08:12
阅读次数:
188
爬虫基本流程 发起请求 通过HTTP库向目标服务器发送Request,Request内可以包含额外的headers信息。 获取响应内容 如果服务器正常响应,会返回Response, 里面包含的就是该页面的内容。 解析数据 内容或许是HTML,可以用正则表达式、网页解析库进行解析。 或许是Json,可 ...
分类:
编程语言 时间:
2018-05-20 20:08:14
阅读次数:
133
上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器。 beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正 ...
分类:
其他好文 时间:
2018-05-18 14:11:58
阅读次数:
127
爬虫的定义 爬虫:按照一定的规则,自动抓取互联网信息的程序或者脚本,从而获取对于我们有价值的信息。 爬虫的两大特征 爬虫的三大步骤 爬虫的分类 爬虫的结构 Python爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。 爬虫的执行流程 爬虫 ...
分类:
其他好文 时间:
2018-05-09 22:34:24
阅读次数:
171
一、简单爬虫框架 简单爬虫框架由四个部分组成:URL管理器、网页下载器、网页解析器、调度器,还有应用这一部分,应用主要是NLP配合相关业务。 它的基本逻辑是这样的:给定一个要访问的URL,获取这个html及内容(也可以获取head和cookie等其它信息),获取html中的某一类链接,如a标签的hr ...
分类:
编程语言 时间:
2018-04-15 16:13:55
阅读次数:
256
一:简介 PyQuery库是jQuery的Python实现,可以用于解析HTML网页内容,是一个非常强大又灵活的网页解析库。 --》官方文档地址 --》jQuery参考文档 二:初始化 初始化的时候一般有三种传入方式:传入字符串,传入url,传入文件。 (1):字符串初始化 注意: 由于PyQuer ...
分类:
其他好文 时间:
2018-04-06 16:39:38
阅读次数:
171
BeautifulSoup网页解析库 from bs4 import BeautifulSoup 0.BeautifulSoup网页解析库包含 的 几个解析器 Python标准库【主要,系统自带;】 使用方法: BeautifulSoup(markup,"html.parser")【注:markup ...
分类:
编程语言 时间:
2018-03-18 16:23:04
阅读次数:
245