1、要求:python基础,python web框架的了解,web.py\flask\django等,爬虫框架scrapy的基础,html解析技术bs\xpath等 2、设计爬虫策略 3、反爬虫处理,模拟浏览器,使用代理ip等 4、分布式爬虫 scrapy-redis,利用redis对url去重,存 ...
分类:
编程语言 时间:
2018-04-09 21:48:09
阅读次数:
196
import requests import re url = "http://news.gzcc.cn/html/xiaoyuanxinwen/" res = requests.get(url) res.encoding = 'utf-8' # 利用BeautifulSoup的HTML解析器,生成 ...
分类:
其他好文 时间:
2018-04-08 22:41:07
阅读次数:
229
import requests url = "http://news.gzcc.cn/html/xiaoyuanxinwen/" res = requests.get(url) res.encoding = 'utf-8' # 利用BeautifulSoup的HTML解析器,生成结构树 from b... ...
分类:
其他好文 时间:
2018-04-04 18:06:35
阅读次数:
175
0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 2.利用BeautifulSoup的HTML解析器,生成结构树 3.找出特定标签的html元素 soup.p #标签名,返回第一个 soup.head soup.p.nam ...
分类:
其他好文 时间:
2018-03-30 20:07:33
阅读次数:
157
可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 2.利用BeautifulSoup的HTML解析器,生成结构树 3.找出特定标签的html元素 soup.p #标签名,返回第一个 soup.head soup.p.name ...
分类:
其他好文 时间:
2018-03-30 13:19:37
阅读次数:
146
0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 2.利用BeautifulSoup的HTML解析器,生成结构树 3.找出特定标签的html元素 4.取得含有特定CSS属性的元素 5.练习: 取出h1标签的文本 取出a标签 ...
分类:
其他好文 时间:
2018-03-29 22:43:06
阅读次数:
232
Simple DOM Demo This is the document body This is paragraph 1. 段落2 广州商学院 我校校长杨文轩教授讲授新学期“思政第一课” 3月27日下午,我校校... ...
分类:
其他好文 时间:
2018-03-29 20:06:56
阅读次数:
197
0.可以新建一个用于练习的html文件,在浏览器中打开。 329.html 1.利用requests.get(url)获取网页页面的html文件 2.利用BeautifulSoup的HTML解析器,生成结构树 3.找出特定标签的html元素 4.取得含有特定CSS属性的元素 5.练习: 取出h1标签 ...
分类:
其他好文 时间:
2018-03-29 20:03:24
阅读次数:
145
0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get( ...
分类:
其他好文 时间:
2018-03-29 14:56:15
阅读次数:
144
练习: 新建一个用于练习的html文件,在浏览器中打开。 利用requests.get(url)获取网页页面的html文件 利用BeautifulSoup的HTML解析器,生成结构树 取出h1标签的文本 取出a标签的链接 取出所有li标签的所有内容 取出一条新闻的标题、链接、发布时间、来源 标题: ...
分类:
其他好文 时间:
2018-03-29 12:08:16
阅读次数:
133