码迷,mamicode.com
首页 >  
搜索关键字:soup    ( 551个结果
BeautifulSoup select方法
我们在写 CSS 时,标签名不加任何修饰,类名前加点,id名前加 #,在这里我们也可以利用类似的方法来筛选元素,用到的方法是 soup.select(),返回类型是 list(1)通过标签名查找 (2)通过类名查找 (3)通过 id 名查找 (4)组合查找 组合查找即和写 class 文件时,标签名 ...
分类:其他好文   时间:2017-08-30 17:36:18    阅读次数:194
第一个爬虫程序
from urllib import request from urllib import parse from bs4 import BeautifulSoup req =request.Request("http://www.xinshipu.com/zuofa/49391") req.add_... ...
分类:其他好文   时间:2017-08-27 17:13:27    阅读次数:218
简单爬虫思路
1、预期获取的资源的url2、下载url的html源文件(文本形式)3、从已下载的html源文件里获取标签或内容(bs4函数(python3))soup=BeautifulSoup#创建对象body=soup.body#html基本框架形式、格式data_main=body.find()#利用浏览器的审查元素对应内容(部分)fori,table_infoinenu..
分类:其他好文   时间:2017-08-23 23:01:16    阅读次数:202
python 爬取网页内容
1 #encoding:UTF-8 2 import urllib 3 import urllib.request 4 import bs4 5 from bs4 import BeautifulSoup as bs 6 def test1(): 7 url = "http://www.stylus... ...
分类:编程语言   时间:2017-08-23 13:46:53    阅读次数:250
20170820_python实时获取某网站留言信息
主要用的是request和bs4,遇到最大的问题是目标站是gb2312编码,python3的编码虽然比2的处理要好得多但还是好麻烦, 最开始写的是用cookie模拟登陆,但是这个在实际使用中很麻烦,需要先登陆目标网站,然后把cookie复制下来拷贝到代码中...懒惰是 第一动力! 准备用火狐的htt ...
分类:编程语言   时间:2017-08-20 12:40:20    阅读次数:711
基于python的接口自动化测试框架
公司内部的软件采用B/S架构,大部分是数据的增删改查,由于还在开发阶段,所以UI界面的变化非常快,难以针对UI进行自动化测试,那样会消耗大量的精力与时间维护自动化脚本。针对此种情况,针对接口测试较为有效。 工具选择 针对接口测试的工具也很多,例如soup UI, robot framework ,甚 ...
分类:编程语言   时间:2017-08-14 18:53:39    阅读次数:277
pip相关总结
python3 -m pip install beautifulsoup4 安装 pip升级报错:You are using pip version 8.1.1, however version 9.0.1 is available. You should consider upgrading 分割 ...
分类:其他好文   时间:2017-08-14 13:24:52    阅读次数:166
利用python 获取网址中的href(基于python 3.6)
import urllib.requestfrom bs4 import BeautifulSoup def get_link(page): # 寻找链接的href linkData = [] for page in page.find_all('td'): links = page.select( ...
分类:编程语言   时间:2017-08-12 16:08:55    阅读次数:774
2017.08.11 Python网络爬虫实战之Beautiful Soup爬虫
1.与Scrapy不同的是Beautiful Soup并不是一个框架,而是一个模块;与Scrapy相比,bs4中间多了一道解析的过程(Scrapy是URL返回什么数据,程序就接受什么数据进行过滤),bs4则在接收数据和进行过滤之间多了一个解析的过程,根据解析器的不同,最终处理的数据也有所不同,加上这 ...
分类:编程语言   时间:2017-08-11 22:03:47    阅读次数:205
python爬虫rp+bs4
soup = BeautifulSoup(html_doc) soup 就是BeautifulSoup处理格式化后的字符串,soup.title 得到的是title标签,soup.p 得到的是文档中的第一个p标签,要想得到所有标签,得用find_all 函数。 find_all 函数返回的是一个序列 ...
分类:编程语言   时间:2017-08-08 16:46:47    阅读次数:190
551条   上一页 1 ... 39 40 41 42 43 ... 56 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!