以前用的python2.7,改成3.4以后就重新下载了beatifulsoup4.解压到c:\Python34后.在cmd界面执行python setup.py install安装完成后.想看看安装成功没,就切到python解释器环境下import bs4看成功没,结果如下图:看错误提示是语法错误,...
分类:
其他好文 时间:
2014-10-15 01:42:59
阅读次数:
243
最近闲着没事想看小说,找到一个全是南派三叔的小说的网站,决定都下载下来看看,于是动手,在很多QQ群里高手的帮助下(本人正则表达式很烂,程序复杂的正则都是一些高手指导的),花了三四天写了一个脚本
需要 BeautifulSoup 和 requests 两个库
(我已经把注释写得尽量详细)
这个程序的执行速度很慢,求高手告诉我优化的方法!!
#-*-coding:utf8-*-
from...
分类:
编程语言 时间:
2014-10-14 15:47:19
阅读次数:
227
安装 Beautiful Soup? 如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装: $?apt-get?install?Python-bs4 Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通...
分类:
编程语言 时间:
2014-10-06 01:26:49
阅读次数:
415
#!/usr/bin/env python#-*- coding:utf8 -*-import sysreload(sys)sys.setdefaultencoding('gbk')import urllib,urllib2import refrom bs4 import BeautifulSoup...
分类:
其他好文 时间:
2014-09-23 13:35:14
阅读次数:
194
昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。
为了解析抓取的网页,用到了第三方模块,BeautifulSoup,这个模块对于解析html文件非常有用,当然也可以自己使用正则表达式去解析,但是比较麻烦。
由于csdn网站的robots.txt文件中显示禁止任何爬虫,所以必须把爬虫伪装成浏览器,而且不能频繁抓取,得sleep一会再抓,使用频繁会...
分类:
编程语言 时间:
2014-09-19 13:57:15
阅读次数:
284
#?-*-coding:utf-8-*-
import?os
import?sys
from?bs4?import?BeautifulSoup
reload(sys)
sys.setdefaultencoding("utf-8")
fp?=?open(‘txt.txt‘,‘a‘)
for?i?in?range(3):
????path?=?sys.arg...
分类:
编程语言 时间:
2014-09-12 23:35:24
阅读次数:
582
这是我第三天学python了,想写一个东西纪念一下吧,于是写了一直爬虫,但是不是好的虫,只能讲网页的关键词存到本地,但是我觉得基本上算是一只小虫了文中用到了BeautifulSoup这个库,目的是处理html文档分析的,因为我只是提取了title的关键字,所以可以用正则表达式代替,还有一个库是jie...
分类:
其他好文 时间:
2014-09-09 17:55:09
阅读次数:
229
1 # encoding=utf-8 2 import urllib2 3 import cookielib 4 # from BeautifulSoup import BeautifulSoup 5 from bs4 import BeautifulSoup 6 import re 7 queu....
分类:
编程语言 时间:
2014-09-07 17:09:05
阅读次数:
335
因工作需要,日常工作中有不少时间是用在了反复登陆内网。故详细研究测试了BeautifulSoup的用法,总结下来备用爬网页之需。首先是导入模块并初始化了:from bs4 import BeautifulSoupsoup=BeautifulSoup(opener)#1、tag标签法如果一层层的标签包...
分类:
编程语言 时间:
2014-08-11 09:55:51
阅读次数:
373