urllib 标准库(py2中是urllib2) 子模块:request、parse、error request: urlopen函数:打开并读取一个从网络获取的远程对象 beautifulsoup4(bs4) 非标准库 Heading标签也叫做H标签,HTML语言里共六种大小的heading 标签 ...
分类:
其他好文 时间:
2017-11-11 19:52:41
阅读次数:
211
本篇转自博客:上海-悠悠 原文地址:http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言 本篇手把手教大家如何爬取网站上的图片,并保存到本地电脑 一、目标网站 1.随便打开一个风景图的网站:http://699pic.com/sousuo- ...
分类:
编程语言 时间:
2017-11-06 15:08:55
阅读次数:
212
本篇转自博客:上海-悠悠 原文地址:http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言 很多时候我们无法直接定位到某个元素,我们可以先定位它的父元素,通过父元素来找子元素就比较容易 一、子节点 1.以博客园首页的摘要为例:<div cla ...
分类:
编程语言 时间:
2017-11-06 14:53:14
阅读次数:
242
1.掌握python的基本语法知识2.学会如何抓取HTML页面: HTTP请求的处理:urlib、urlib2及requests(reqests对urllib和urllib2进行了封装 ,功能相当于二者的和) 处理后的请求可以模拟浏览器发送的请求,获取浏览器的响应3.解析服务器响应的内容: re、xpath、BeautifulSoup4(bs4)、j..
分类:
编程语言 时间:
2017-11-02 11:23:05
阅读次数:
146
习题1:选一个自己感兴趣的主题,做类似的操作,为“爬取网络数据并进行文本分析”做准备。 习题2:用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源 ...
分类:
其他好文 时间:
2017-10-18 10:06:31
阅读次数:
154
爬虫概要 - pip3 install requests - pip3 install beautifulsoup4 基本爬虫: - cookie csrf 请求头 - cookie csrf 请求头 性能相关: - 线程池 - 进程池 - 异步非阻塞, - (异步=回调,非阻塞=不等待)遇到IO请 ...
分类:
其他好文 时间:
2017-10-16 11:11:44
阅读次数:
101
本文将以一个具体例子,详细介绍利用Requests和BeautifulSoup4技术开发网络爬虫的技术要点和实现步骤。 ...
分类:
其他好文 时间:
2017-10-14 19:57:46
阅读次数:
236
from bs4 import BeautifulSoup import requests import re #请求博客园首页 r=requests.get('http://www.cnblogs.com/tangqiu/') #使用html.parser解析html soup=Beautiful... ...
分类:
编程语言 时间:
2017-10-09 15:57:18
阅读次数:
344
1、用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源。 2、选一个自己感兴趣的主题,做类似的操作,为“爬取网络数据并进行文本分析”做准备。 ...
分类:
其他好文 时间:
2017-09-29 22:53:15
阅读次数:
132
用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源、详细内容。 将其中的时间str转换成datetime类型。 将取得详细内容的代码包装成函数。 from datetime import datetime import requests from bs4 ...
分类:
其他好文 时间:
2017-09-29 01:37:45
阅读次数:
296