平常学习编程或者模块, 有很多在线帮助文档或者手册可以参考, 查询, 现在把它们记下来, 再次寻找的时候比较方便. 文档类: 爬虫: Scrapy1.2 文档: http://python.usyiyi.cn/translate/scrapy_12/index.html Beautiful Soup ...
分类:
其他好文 时间:
2016-10-27 13:29:47
阅读次数:
244
BeautifulSoup支持大部分的CSS选择器 ,在Tag或BeautifulSoup对象的.select() 方法中传入字符串参数,即可使用CSS选择器的语法找到tag: soup.select("title") soup.select("p nth-of-type(3)") soup.sel ...
分类:
Web程序 时间:
2016-10-07 01:08:53
阅读次数:
215
用BeautifulSoup查找指定标签(元素)的时候,有几种方法: soup=BeautifulSoup(html) 1.soup.find_all(tagName),返回一个指定Tag元素的列表 2.soup.select(selector),返回一个指定Tag元素的列表,是非常好用的方法,它支 ...
分类:
其他好文 时间:
2016-09-28 22:29:40
阅读次数:
198
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4782 题意:给html代码美化一下。 细节很重要,有一个坑点就是,文本换行的时候有坑,就是会向上缩并且加空格。 ...
分类:
其他好文 时间:
2016-09-21 21:29:58
阅读次数:
125
urllib是python3.x中提供的一系列操作的URL的库,它可以轻松的模拟用户使用浏览器访问网页. Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省 ...
分类:
编程语言 时间:
2016-09-05 16:47:35
阅读次数:
732
Python中使用Beautiful Soup库的超详细教程 作者:崔庆才 字体:[增加 减小] 类型:转载 时间:2015-04-30 我要评论 Python中使用Beautiful Soup库的超详细教程 作者:崔庆才 字体:[增加 减小] 类型:转载 时间:2015-04-30 我要评论 这篇 ...
分类:
其他好文 时间:
2016-08-23 16:55:05
阅读次数:
150
#输出所得标签的‘’属性值 获取 head里面的第一个meta的content值soup.head.meta['content'] 获取第一个span的内容soup.span.string 获取第一个span的内容 soup.span.textname属性叫keywords 所有对象 soup.fi ...
分类:
其他好文 时间:
2016-07-20 10:30:12
阅读次数:
389
做回测系统发现股票季报不能很好的表现每天的总股本。于是在新浪发现了数据源,决定用beatifulSoup爬一下。 先是读取股票code对应页面, 这里推荐用下面这种,因为用lxml会有几个code的页面解析不到,具体原因可能是页面太长。 下面直接找id的话用find(id=xxx)就行。 得到的数据 ...
分类:
编程语言 时间:
2016-07-12 01:26:11
阅读次数:
156
通过BeautifulSoup库的get_text方法找到网页的正文:#!/usr/bin/envpython
#coding=utf-8
#HTML找出正文
importrequests
frombs4importBeautifulSoup
url=‘http://www.baidu.com‘
html=requests.get(url)
soup=BeautifulSoup(html.text)
printsoup.get_text()
分类:
编程语言 时间:
2016-06-27 00:12:04
阅读次数:
528
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表 达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这 ...
分类:
编程语言 时间:
2016-06-20 06:32:34
阅读次数:
326