看知乎的时候发现了一个 “如何正确地吐槽” 收藏夹,里面的一些神回复实在很搞笑,但是一页一页地看又有点麻烦,而且每次都要打开网页,于是想如果全部爬下来到一个文件里面,是不是看起来很爽,并且随时可以看到全部的,于是就开始动手了。工具1.Python 2.72.BeautifulSoup分析网页我...
分类:
编程语言 时间:
2015-01-03 19:49:03
阅读次数:
187
研究了一下新浪邮箱的注册流程,顺手写了个注册机,分享供学习用,请勿用于商业用途。
代码托管地址:https://bitbucket.org/doggod999/ooobj 运行效果图: 运行环境:
python3
requests-2.2.1
beautifulsoup-4.1.3
########...
分类:
编程语言 时间:
2014-12-26 22:47:40
阅读次数:
348
在windows上安装步骤如下:1. 对于python2.7,在官网上下载 BeautifulSoup4-4.1.0,(经试验,4-4.3.2不能安装成功)2. 解压缩到本地硬盘,比如C:\Python27目录下3. 运行cmd,输入命令: setup.py build setup.py i...
分类:
其他好文 时间:
2014-12-25 21:44:32
阅读次数:
673
python采集新浪热门微博_郑晓_个人博客 这是之前学习python采集时的一个练习程序,程序基于python3和BeautifulSoup库。用来抓取新浪微博(热门微博hot.weibo.com)页面的信息,包括每条微博的发布人,微博内容和包含的图片,微博中含有的多张图片采集为一个图片列表。由于...
分类:
编程语言 时间:
2014-12-23 19:28:28
阅读次数:
209
以下代码,在执行结果中的中文出现乱码。from bs4 import BeautifulSoupimport urllib2request = urllib2.Request('http://www.163.com')response = urllib2.urlopen(request)html_d...
分类:
Web程序 时间:
2014-12-16 16:30:13
阅读次数:
199
序言 之前用python爬取网页的时候,一直用的是regex或者自带的库sgmllib里的SGMLParser。但是遇到复杂一点的情况时,SGMLParser往往就不那么给力了!(哈,难道说我 too native了?毕竟beautifulSoup是继承sgmlparser的么~)所以,我寻寻觅觅....
分类:
编程语言 时间:
2014-12-15 16:46:54
阅读次数:
263
python2.7.6urllib:发送报文并得到responseBeautifulSoup:解析报文的body(html)#encoding=UTF-8
frombs4importBeautifulSoup
fromurllibimporturlopen
importurllib
list_no_results=[]#没查到的银行卡的list
list_yes_results=[]#已查到的银行卡的list
#解析报文,以字典..
分类:
编程语言 时间:
2014-12-05 19:49:25
阅读次数:
233
转载:http://www.xuebuyuan.com/583071.htmlpython处理html的table标签2012年01月06日? 综合? 共 5279字 ? 字号小中大?评论关闭import sysimport csvimport urllib2import BeautifulSoup...
分类:
编程语言 时间:
2014-12-04 17:12:48
阅读次数:
238
续上篇文章,网页抓取到手之后就是解析网页了。在Python中解析网页的库不少,我最开始使用的是BeautifulSoup,貌似这个也是Python中最知名的HTML解析库。它主要的特点就是容错性很好,能很好地处理实际生活中各种乱七八糟的网页,而且它的API也相当灵活而且丰富。但是我在自己的正文提取项...
分类:
编程语言 时间:
2014-11-15 17:00:12
阅读次数:
277