myReApp.py(图片将存放于pic目录下)import re
#window下request的安装,cmd下输入pip install requests
import requests
#读取源代码文件
f = open("hello.txt","rb")
html = f.read()
#用utf-8解码,不然报错 TypeError: cannot use a string patt...
分类:
编程语言 时间:
2016-07-15 11:10:04
阅读次数:
445
上一篇简单的Demo确实实现了一些爬虫的功能。但是距真正的搜索引擎爬虫确实想去甚远。
1.首先下载URL时,大多是维护一个DNS服务器,找到相应的IP在进行下载网页。
2.维护URL队列时,上篇程序属于纵向的深度遍历,所以维护队列会越来越大,这算是比较大的bug了。解决方法起线程,或者每个页面只抓取一个URL。
3,关于URL抓取和种子URL写的也比较简陋,好吧,原谅他只是个Demo。urll...
分类:
其他好文 时间:
2015-04-29 23:34:54
阅读次数:
330
案例讲解import urllib #调用uerllib
import webbrowser
url = 'http://blog.csdn.net/xlgen157387'
content = urllib.urlopen(url).read()
open('test.html','w').write(content) #写入到test.html文件中
webbrowser.open_new_...
分类:
编程语言 时间:
2015-04-18 16:11:40
阅读次数:
175
关键词: nutch今日来看看Nutch怎么Parse页面的:Nutch运用了两种Html parser东西(NekoHTML和TagSoup)来完成html的获取,这两种东西是可经过配置来选择的。当然你要自己完成Parser你还能够选择HTMLParser[根据visitor访问者形式一起也供给了...
分类:
其他好文 时间:
2014-06-18 15:28:46
阅读次数:
181
关键词: nutch今日来看看Nutch怎么Parse页面的: Nutch运用了两种Html parser东西(NekoHTML和TagSoup)来完成html的获取,这两种东西是可经过配置来选择的。 当然你要自己完成Parser你还能够选择HTMLParser[根据visitor访问者形式一起也供...
分类:
其他好文 时间:
2014-06-17 21:22:32
阅读次数:
258
关键词:nutch今日来看看Nutch怎么Parse页面的:Nutch运用了两种Htmlparser东西(NekoHTML和TagSoup)来完成html的获取,这两种东西是可经过配置来选择的。当然你要自己完成Parser你还能够选择HTMLParser[根据visitor访问者形式一起也供给了Eventdriver的接口]来获取页面。假如..
分类:
其他好文 时间:
2014-06-17 18:30:27
阅读次数:
200