码迷,mamicode.com
首页 >  
搜索关键字:页面抓取    ( 78个结果
爬虫架构设计
本文主要介绍爬虫系统的架构,具体的爬取细节和所使用的语言都可以自由选择。 以下是我从网上截取的一位前辈提炼的,对于爬虫系统的要求,我觉得很有道理。 我的设计尽量依据以上七条原则。 首先我觉得一个完整爬虫系统应该包括三个子系统:页面爬取系统,内容入库系统,内容管理系统。 三个系统之间必须低耦合,以实现分布式和可伸缩性的要求。 页面爬取系统负责从第三方页面抓取内容,并提交到内容入库系...
分类:其他好文   时间:2016-05-13 03:01:07    阅读次数:108
phantomjs使用说明
phantomjs使用说明12条评论phantomjs实现了一个无界面的webkit浏览器。虽然没有界面,但dom渲染、js运行、网络访问、canvas/svg绘制等功能都很完备,在页面抓取、页面输出、自动化测试等方面有广泛的应用。安装下载phantomjs(官方下载,下载失败请访问另一个下载点)。...
分类:Web程序   时间:2016-01-12 01:19:36    阅读次数:527
java抓取动态生成的网页
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到了)...
分类:编程语言   时间:2016-01-10 23:54:42    阅读次数:238
爬虫基础学习 转【http://www.cnblogs.com/huangxincheng/archive/2012/11/08/2759752.html】
这一篇我们聊聊在页面抓取时应该注意到的几个问题。一:网页更新 我们知道,一般网页中的信息是不断翻新的,这也要求我们定期的去抓这些新信息,但是这个“定期”该怎么理解,也就是多长时间需要抓一次该页面,其实这个定期也就是页面缓存时间,在页面的缓存时间内我们再次抓取该网页是没有必要的,反而给人家服务器造成....
分类:Web程序   时间:2015-12-21 12:32:47    阅读次数:230
[python]初试页面抓取——抓取沪深股市交易龙虎榜数据
[python]抓取沪深股市交易龙虎榜数据python 3.5.0下运行没做自动建立files文件夹,需要手动在py文件目录下建立files文件夹后运行#coding=utf-8import gzipimport http.cookiejarimport urllib.requestimport u...
分类:编程语言   时间:2015-10-01 19:11:45    阅读次数:291
jsp页面跳转传递参数/抓取参数
1.通过url路径传递参数var name='job';var age=18;window.open($.WEB_ROOT+'/nihao/search/infomation.jsp?name='+name+'&age='+age);jsp中页面抓取2.js抓取参数在当前JSP中设置一个隐藏的$("...
分类:Web程序   时间:2015-08-18 17:59:58    阅读次数:137
wecenter—开启CURL扩展,让服务器支持PHP curl函数(远程采集)
curl()、file_get_contents()、snoopy.class.php这三个远程页面抓取或采集中用到的工具,默迹还是侵向于用snoopy.class.php,因为他效率比较高且不需要服务器特定配置支持,在普通虚拟主机中即可使用;file_get_contents()效率稍低些,常用失...
分类:Web程序   时间:2015-08-15 21:21:47    阅读次数:149
scrapy系列教程一——scrapy介绍和scrapy安装
1、scrapy可以做什么? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取(更确切来说,网络抓取)所设计的, 也可以应用在获取API所返回的数据(例如Amazon Associates W....
分类:其他好文   时间:2015-08-10 13:26:15    阅读次数:105
使用selenium抓取JS动态生成的页面
在抓取网页数据时,传统jsoup方案只能对静态页面有效,而有些网页数据往往是js生成的,所以这时候需要其它的方案。 首先的思路是分析js程序,对js的请求进行再次抓取,这适合于特定的页面抓取,要做到对不同目标URL的通用性,比较麻烦。 第二种思路,也是比较成熟的做法是利用第三方的驱动渲染页面,然后下载。这里介绍一下第二种实现思路。 Selenium是一个模拟浏览器的自动化测试工具,它...
分类:Web程序   时间:2015-07-31 20:21:44    阅读次数:171
开启CURL扩展,让服务器支持PHP curl函数(远程采集)
关于开启Curl的方法模板天下小编在此给大家简单说一下curl()、file_get_contents()、snoopy.class.php这三个远程页面抓取或采集中用到的工具,默迹还是侵向于用snoopy.class.php,因为他效率比较高且不需要服务器特定配置支持,在普通虚拟主机中即可使用,f...
分类:Web程序   时间:2015-07-21 16:44:27    阅读次数:130
78条   上一页 1 ... 4 5 6 7 8 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!