码迷,mamicode.com
首页 >  
搜索关键字:爬虫    ( 10452个结果
利用bloom filter算法处理大规模数据过滤
Bloom Filter是由Bloom在1970年提出的一种快速查找算法,通过多个hash算法来共同判断某个元素是否在某个集合内。可以用于网络爬虫的url重复过滤、垃圾邮件的过滤等等。
分类:其他好文   时间:2014-09-01 14:01:23    阅读次数:238
python的小爬虫的基本写法
1.最基本的抓站import urllib2content = urllib2.urlopen('http://XXXX').read()-2.使用代理服务器这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。import urllib2proxy_support = url...
分类:编程语言   时间:2014-09-01 12:07:13    阅读次数:210
15个最受欢迎的Python开源框架
这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等。Django: Python Web应用开发框架Django 应该是最出名的Python框架,GAE甚至Erlang都有框架受它影响。Django是走大而全的方向,它最出名的是其全自动化的管理后台:只需要使用起ORM,做简单...
分类:编程语言   时间:2014-08-31 11:48:11    阅读次数:271
Java实现的基于模板的网页结构化信息精准抽取组件:HtmlExtractor
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 ? HtmlExtractor是为大规模分布式环境设计的,采...
分类:编程语言   时间:2014-08-31 00:35:00    阅读次数:228
基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络...
分类:其他好文   时间:2014-08-30 23:13:50    阅读次数:434
[python]利用urllib+urllib2解决爬虫分页翻页问题
最近由于公司的自动化测试工具需要将测试结果导出到excel中,奈何没有学SSH,导致无法在工具本身中添加(工具是开发做的),故转而使用python爬虫来做,开发过程中遇到了一个问题: 由于测试结果太多,需要翻页,而翻页时网址没有变化,这就导致抓取的时候没法依照网址去爬,遂去网上查找解决方法,最后找....
分类:编程语言   时间:2014-08-30 11:07:39    阅读次数:4116
JAVA爬虫WebCollector教程列表
JAVA爬虫WebCollector教程列表 入门教程: WebCollector入门教程(中文版) 用WebCollector对指定URL进行爬取和解析 JAVA爬虫Nutch、WebCollector的正则约束 实例: 用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA) 内核: 利用WebCollector爬虫...
分类:编程语言   时间:2014-08-28 14:52:39    阅读次数:453
JAVA爬虫Nutch、WebCollector的正则约束
每种爬虫的正则约束系统都有一些区别,这里拿Nutch、WebCollector两家爬虫的正则系统做对比。爬虫爬取时,需要约束爬取的范围。基本所有的爬虫都是通过正则表达式来完成这个约束................
分类:编程语言   时间:2014-08-28 13:18:59    阅读次数:569
布隆过滤器的学习整理
bloomFilter是70年代提出来的一个利用时间,错误率来换取空间的应用。应用在大数据量的情况下,比如爬虫抓取的大量url,用来判断哪些url是已经爬取过的。m =>使用的散列长度,这个值通常用来创建BitSet的长度,java.util.BitSetn =>待散列的字符串的个数。k =>使用的...
分类:其他好文   时间:2014-08-28 12:52:49    阅读次数:159
Java抓取利用JS动态加载的网页
最近实验室项目涉及到很多爬虫相关的东西,在此做个整理,爬虫最难的问题应该是javascript和ajax的处理。现在很多网站使用大量ajax,普通爬虫无法获取js生成的内容。 对于普通的静态网页,HttpClient是Java中抓取网页的利器,然而针对像京东商品页面这样的页面却无能为力,例如:htt...
分类:编程语言   时间:2014-08-27 18:05:08    阅读次数:1308
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!