第 0008 题:一个HTML文件,找出里面的正文。思路:我把这里的正文理解为网页中我主要内容,那么怎么去抓取这个主要内容呢?我一开始的想法是用beautifulsoup来解析网页,但是又想到如果要抽取正文的话这样做还涉及到比较复杂的算法,而且对于不同的网页来说效果可能做不到很好。后来我发现了Python-goose(Github)这个神器,它是基于NLTK和Beautiful Soup的,分别是文...
分类:
编程语言 时间:
2015-05-07 12:37:09
阅读次数:
757
程序大概内容如下:
程序中设置两个队列分别为queue负责存放网址,out_queue负责存放网页的源代码。
ThreadUrl线程负责将队列queue中网址的源代码urlopen,存放到out_queue队列中。
DatamineThread线程负责使用BeautifulSoup模块从out_queue网页的源代码中提取出想要的内容并输出。
这只是一个基本的框架,可以根据需求继续扩展...
分类:
编程语言 时间:
2015-04-28 09:49:14
阅读次数:
164
Example:html文件:html_doc="""The Dormouse's storyThe Dormouse's storyOnce upon a time there were three little sisters; and their names wereElsie,Lacie a...
分类:
其他好文 时间:
2015-04-27 21:33:35
阅读次数:
119
通过BeautifulSoup来登陆人人网。可以通过info = {'email':'','password':''}进行账号密码的初始化,一个BeautifulSoup的简单应用,过一阶段会写一个关于BeautifulSoup框架使用的小手册,欢迎大家关注啊,求各路读者大大多加指导。
#-*- coding:utf-8 -*-
import urllib
import urllib2
impo...
分类:
编程语言 时间:
2015-04-27 09:51:13
阅读次数:
133
注明:python2.7版本貌似只支持beautifulsoup4.4
正常情况下在dos命令下将beautifulsoup解压在python安装目录下
进入beautifulsoup文件夹
使用python setup.py install安装
我在安装时遇到的问题是使用上述命令抛出错误
出现问题:
由于之前python文件我选择了由spyder打开,所以在此解压安装出...
分类:
编程语言 时间:
2015-04-18 16:12:47
阅读次数:
213
http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html"你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,我们推荐在现在的项目中使用Beautiful Soup 4,...
分类:
其他好文 时间:
2015-04-15 18:42:43
阅读次数:
178
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html#contents简单的用法:find(name,attrs,recursive,text,**kwargs)好了,我们现在看看其他的搜索方法。他们都是有和fi...
分类:
编程语言 时间:
2015-04-08 13:04:48
阅读次数:
307
#coding:utf-8'''Created on 2015?-4-5@author: Administrator'''from bs4 import BeautifulSoupimport urllib2import sysreload(sys)sys.setdefaultencoding('u...
分类:
编程语言 时间:
2015-04-05 17:13:09
阅读次数:
200
文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现;后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识。由于这方面的文章还是较少,希望提供一些思想和方法对大家有所帮助。
一.维基百科和Infobox
Infobox究竟是个什么东西呢?维基百科作为目前规模最大和增长最快的开放式的在线百...同时讲述了正则表达式等相关知识。...
分类:
编程语言 时间:
2015-03-18 06:28:14
阅读次数:
219