目的:显示糗百多页文字内容,一次看个够,节约时间。 工具:python 2.7,BeautifulSoup,requests (没有采用urllib2,因为比较麻烦) 先把源码贴出来: #-*- coding:utf-8 -*- import requests from bs4 import Bea ...
分类:
编程语言 时间:
2017-01-19 23:59:17
阅读次数:
335
from bs4 import BeautifulSoupinfo = []with open('D:\web1111/new_index.html','r') as wb_data: Soup = BeautifulSoup(wb_data,'lxml') images = Soup.select ...
分类:
其他好文 时间:
2017-01-19 16:13:08
阅读次数:
213
原料:python3或者以上BeautifulSoup4以上1、在DOS窗口输入:pythonf:\python36\beautifulsoup4-4.5.1\setup.pyinstall说明BeautifulSoup暂时安装成功。运行提示bs支持python2不支持python3,需要用命令2to3-wbs4将bs4转换成python3支持的2:关键步骤:将beautifulsoup4-4.5.1下..
分类:
编程语言 时间:
2017-01-18 14:30:06
阅读次数:
294
最近玩爬虫,先把python解析器 beautifulsoup 练练 这个 tainiu.html 是从百度网盘里拷贝一段html from bs4 importBeautifulSoup with open('tainiu.html','r',encoding ='UTF-8')as f: htm ...
分类:
编程语言 时间:
2017-01-17 23:30:49
阅读次数:
184
结合个人需求,从某个网站获取一些数据,发现网页链接是隐藏的,需要通过浏览器看后面的代码来获取真实的链接。 下面这个案例,直接是从真实的链接中爬去数据。 此外,发现用pandas的read_html不能直接解析“lxml”的表格,有待后续研究。 另外,爬去的数据发现有很多空格符号,主要是 "\r"、" ...
分类:
编程语言 时间:
2017-01-17 07:42:46
阅读次数:
278
因为做网页爬虫,需要用到一个爬新闻的BeautifulSoup 的包,然后再关网上下的是whl包,第一次装,虽然花了点时间,最后还是装上去了,记录一下,方便下次。 先发一下官方文档地址。http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 建议有 ...
分类:
编程语言 时间:
2017-01-08 12:43:39
阅读次数:
255
闲着没事爬个糗事百科的笑话看看python3中用urllib.request.urlopen()打开糗事百科链接会提示以下错误http.client.RemoteDisconnected:Remoteendclosedconnectionwithoutresponse但是打开别的链接就正常,很奇怪不知道为什么,没办法改用第三方模块requests,也可以用urllib3模..
分类:
编程语言 时间:
2017-01-06 08:09:11
阅读次数:
666
1、安装需要的库 bs4 beautifulSoup requests lxml如果使用mongodb存取数据,安装一下pymongo插件 2、常见问题 1> lxml安装问题 如果遇到lxml无法安装问题,参考知乎上的答案: 首先,安装wheel,命令行运行:pip install wheel其次 ...
分类:
其他好文 时间:
2017-01-03 07:50:02
阅读次数:
4788
BeautifulSoup的文档见 https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 其中.contents 会将换行也记录为一个子节点 输出: ['\n', <p class="title"><b>The Dormouse's st ...
分类:
其他好文 时间:
2016-12-11 12:59:23
阅读次数:
152
import re from bs4 import BeautifulSoupdoc = ['<html><head><title>Page title</title></head>', '<body><p id="firstpara" align="center">This is paragrap ...
分类:
其他好文 时间:
2016-12-03 23:24:16
阅读次数:
231