码迷,mamicode.com
首页 >  
搜索关键字:爬虫demo    ( 16个结果
python-文本爬虫demo-获取极客学院首页的图片
myReApp.py(图片将存放于pic目录下)import re #window下request的安装,cmd下输入pip install requests import requests #读取源代码文件 f = open("hello.txt","rb") html = f.read() #用utf-8解码,不然报错 TypeError: cannot use a string patt...
分类:编程语言   时间:2016-07-15 11:10:04    阅读次数:445
关于爬虫Demo的一点补充
上一篇简单的Demo确实实现了一些爬虫的功能。但是距真正的搜索引擎爬虫确实想去甚远。 1.首先下载URL时,大多是维护一个DNS服务器,找到相应的IP在进行下载网页。 2.维护URL队列时,上篇程序属于纵向的深度遍历,所以维护队列会越来越大,这算是比较大的bug了。解决方法起线程,或者每个页面只抓取一个URL。 3,关于URL抓取和种子URL写的也比较简陋,好吧,原谅他只是个Demo。urll...
分类:其他好文   时间:2015-04-29 23:34:54    阅读次数:330
Python爬虫原理的小demo
案例讲解import urllib #调用uerllib import webbrowser url = 'http://blog.csdn.net/xlgen157387' content = urllib.urlopen(url).read() open('test.html','w').write(content) #写入到test.html文件中 webbrowser.open_new_...
分类:编程语言   时间:2015-04-18 16:11:40    阅读次数:175
nutch的爬虫demo代码 编辑
关键词: nutch今日来看看Nutch怎么Parse页面的:Nutch运用了两种Html parser东西(NekoHTML和TagSoup)来完成html的获取,这两种东西是可经过配置来选择的。当然你要自己完成Parser你还能够选择HTMLParser[根据visitor访问者形式一起也供给了...
分类:其他好文   时间:2014-06-18 15:28:46    阅读次数:181
nutch的爬虫demo代码 编辑
关键词: nutch今日来看看Nutch怎么Parse页面的: Nutch运用了两种Html parser东西(NekoHTML和TagSoup)来完成html的获取,这两种东西是可经过配置来选择的。 当然你要自己完成Parser你还能够选择HTMLParser[根据visitor访问者形式一起也供...
分类:其他好文   时间:2014-06-17 21:22:32    阅读次数:258
nutch的爬虫demo代码 编辑
关键词:nutch今日来看看Nutch怎么Parse页面的:Nutch运用了两种Htmlparser东西(NekoHTML和TagSoup)来完成html的获取,这两种东西是可经过配置来选择的。当然你要自己完成Parser你还能够选择HTMLParser[根据visitor访问者形式一起也供给了Eventdriver的接口]来获取页面。假如..
分类:其他好文   时间:2014-06-17 18:30:27    阅读次数:200
16条   上一页 1 2
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!