前言 很多时候我们无法直接定位到某个元素,我们可以先定位它的父元素,通过父元素来找子元素就比较容易 一、子节点 1.以博客园首页的摘要为例:<div class="c_b_p_desc">这个tag为起点 2.那么div这个tag就是父节点 3."摘要: 前言 本篇详细。。。"这个string就是上 ...
分类:
其他好文 时间:
2018-09-20 17:26:01
阅读次数:
198
前言 本篇手把手教大家如何爬取网站上的图片,并保存到本地电脑 一、目标网站 1.随便打开一个风景图的网站:http://699pic.com/sousuo-218808-13-1.html 2.用firebug定位,打开firepath里css定位目标图片 3.从下图可以看出,所有的图片都是img标 ...
分类:
其他好文 时间:
2018-09-20 17:19:54
阅读次数:
146
CSS 选择器:BeautifulSoup4 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整 ...
分类:
其他好文 时间:
2018-09-16 19:44:36
阅读次数:
159
[toc] requests html 是基于现有的框架 PyQuery、Requests、lxml、beautifulsoup4等库进行了二次封装,作者将Requests设计的简单强大的优点带到了该项目中。 GiHub项目地址: "https://github.com/kennethreitz/r ...
分类:
编程语言 时间:
2018-09-10 00:58:41
阅读次数:
352
Python爬虫教程 25 数据提取 BeautifulSoup4(三) 本篇介绍 BeautifulSoup 中的 css 选择器 css 选择器 使用 soup.select 返回一个列表 通过标签名称:soup.select("title") 通过类名:soup.select(".centen ...
分类:
编程语言 时间:
2018-09-06 21:33:38
阅读次数:
170
Python爬虫教程 24 数据提取 BeautifulSoup4(二) 本篇介绍 bs 如何遍历一个文档对象 遍历文档对象 contents:tag 的子节点以列表的方式输出 children:子节点以迭代器形式返回 descendants:所有子孙节点 string:用string打印出标签的具 ...
分类:
编程语言 时间:
2018-09-06 21:32:04
阅读次数:
218
1.爬虫基础 2.爬虫基础二 XPath语法和lxml模块 3.爬虫基础三 BeautifulSoup4库 4.爬虫基础四 正则表达式 5.爬虫基础五 json文件处理、csv文件处理、MySQL数据库操作 6.爬虫基础六 多线程爬虫 7.爬虫基础七 图形验证码识别技术 8.爬虫基础八Scrapy框 ...
分类:
其他好文 时间:
2018-09-02 20:25:46
阅读次数:
206
#https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#find-all #beautifulSoup可以解析HTML,下载安装时使用的是 pip install beautifulsoup4 ,导入模块时使用的是bs ...
分类:
Web程序 时间:
2018-08-28 13:10:31
阅读次数:
2751
一、BeautifulSoup4简介 BeautifulSoup4和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 官方文档:http://beautifulsoup.readthedocs.io/zh_CN/ ...
分类:
其他好文 时间:
2018-08-26 15:41:33
阅读次数:
339
1.给小表弟汇总一个院校列表,想来想去可以写一个小爬虫爬下来方便些,所以就看了看怎么用python写,到了基本能用的程度,没有什么特别的技巧,大多都是百度搜的,遇事不决问百度啦 2.基本流程就是: 用request爬取一个页面之后用BeautifulSoup4对爬到的页面进行处理, 然后需要的东西进 ...
分类:
编程语言 时间:
2018-08-19 15:41:24
阅读次数:
166