知识内容: 1.requests库 2.selenium库 3.BeautifulSoup4库 一、requests库 ...
分类:
编程语言 时间:
2018-05-18 23:34:44
阅读次数:
361
#python第三方库自动安装脚本,需要在cmd中运行此脚本#BatchInstall.pyimport oslibs = {"numpy","matplotlib","pillow","sklearn","requests",\ "jieba","beautifulsoup4","wheel"," ...
分类:
编程语言 时间:
2018-05-17 11:41:49
阅读次数:
429
前言 很多时候我们无法直接定位到某个元素,我们可以先定位它的父元素,通过父元素来找子元素就比较容易 一、子节点 1.以博客园首页的摘要为例:<div class="c_b_p_desc">这个tag为起点 2.那么div这个tag就是父节点 3."摘要: 前言 本篇详细。。。"这个string就是上 ...
分类:
编程语言 时间:
2018-05-12 11:14:48
阅读次数:
220
前言 本篇手把手教大家如何爬取网站上的图片,并保存到本地电脑 一、目标网站 1.随便打开一个风景图的网站:http://699pic.com/sousuo-218808-13-1.html 2.用firebug定位,打开firepath里css定位目标图片 3.从下图可以看出,所有的图片都是img标 ...
分类:
编程语言 时间:
2018-05-12 11:10:25
阅读次数:
160
'''爬虫的构成下载器: 抓取页面 urllib equests selenium + webdriver解析器: 解释并提取页面元素 BeautifulSoup4 PyQuery Xpath Regular Expression调度器:协调完成全部抓取任务 进程 线程 协程 分布式抓取处理器: 数 ...
分类:
其他好文 时间:
2018-05-09 12:17:19
阅读次数:
154
\本文涉及到的知识有postgresql数据库使用,文件操作,以及爬虫相关知识,用到了request2、BeautifulSoup两个模块\pip install request2,pip install Beautifulsoup4,pip install htmllib5 安装三个模块\站在别人... ...
分类:
其他好文 时间:
2018-04-30 21:12:18
阅读次数:
158
下面就是bs4的安装过程了: 1.去官网下载BeautifulSoup4:Beautiful Soup 4.3.2 2.解压文件 将下载得到的压缩包解压到任意文件夹,路径不含中文 3.打开cmd命令提示符 win+r,输入cmd,回车 进入解压后的目录,我这里是C:\Python27\bs4\bea ...
1.beautifulsoup https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ pip install beautifulsoup4 1.1 解析库 建议lxml 1.2 解析 四个对象: tag对象的:string。gettext ...
分类:
其他好文 时间:
2018-04-10 21:52:17
阅读次数:
183
打印出 b'<!doctype html>\r\n<html>\r\n<head>\r\n<title>\xbe\xab\xc6\xb7\xd0\xa1\xcb\xb5_……………… 这样的内容,这个是编码格式的问题,在zipfile解压乱码的文章中已经说过了,所以需要先看下这个html网页的头部, ...
分类:
编程语言 时间:
2018-04-08 13:17:02
阅读次数:
338
上篇博客说了正则表达式,但是正则学起来比较费劲,写的时候也不好写,这次说下Beautiful Soup怎么用,这个模块是用来解析html的,它操作很简单,用起来比较方便,比正则学习起来简单多了。 这是第三方模块需要安装 1 2 3 pip install beautifulsoup4 pip ins ...
分类:
其他好文 时间:
2018-04-07 12:52:23
阅读次数:
231