搜索关键字：页面抓取，搜索到78个结果！码迷,mamicode.com！

爬虫架构设计

本文主要介绍爬虫系统的架构，具体的爬取细节和所使用的语言都可以自由选择。以下是我从网上截取的一位前辈提炼的，对于爬虫系统的要求，我觉得很有道理。我的设计尽量依据以上七条原则。首先我觉得一个完整爬虫系统应该包括三个子系统：页面爬取系统，内容入库系统，内容管理系统。三个系统之间必须低耦合，以实现分布式和可伸缩性的要求。页面爬取系统负责从第三方页面抓取内容，并提交到内容入库系...

分类：其他好文时间：2016-05-13 03:01:07 阅读次数：108

phantomjs使用说明

phantomjs使用说明12条评论phantomjs实现了一个无界面的webkit浏览器。虽然没有界面，但dom渲染、js运行、网络访问、canvas/svg绘制等功能都很完备，在页面抓取、页面输出、自动化测试等方面有广泛的应用。安装下载phantomjs（官方下载，下载失败请访问另一个下载点）。...

分类：Web程序时间：2016-01-12 01:19:36 阅读次数：527

java抓取动态生成的网页

最近在做项目的时候有一个需求：从网页面抓取数据，要求是首先抓取整个网页的html源码（后期更新要使用到）。刚开始一看这个简单，然后就稀里哗啦的敲起了代码（在这之前使用过Hadoop平台的分布式爬虫框架Nutch，使用起来是很方便，但是最后因为速度的原因放弃了，但生成的统计信息在后来的抓取中使用到了）...

分类：编程语言时间：2016-01-10 23:54:42 阅读次数：238

爬虫基础学习转【http://www.cnblogs.com/huangxincheng/archive/2012/11/08/2759752.html】

这一篇我们聊聊在页面抓取时应该注意到的几个问题。一：网页更新我们知道，一般网页中的信息是不断翻新的，这也要求我们定期的去抓这些新信息，但是这个“定期”该怎么理解，也就是多长时间需要抓一次该页面，其实这个定期也就是页面缓存时间，在页面的缓存时间内我们再次抓取该网页是没有必要的，反而给人家服务器造成....

分类：Web程序时间：2015-12-21 12:32:47 阅读次数：230

[python]初试页面抓取——抓取沪深股市交易龙虎榜数据

[python]抓取沪深股市交易龙虎榜数据python 3.5.0下运行没做自动建立files文件夹，需要手动在py文件目录下建立files文件夹后运行#coding=utf-8import gzipimport http.cookiejarimport urllib.requestimport u...

分类：编程语言时间：2015-10-01 19:11:45 阅读次数：291

jsp页面跳转传递参数/抓取参数

1.通过url路径传递参数var name='job';var age=18;window.open($.WEB_ROOT+'/nihao/search/infomation.jsp?name='+name+'&age='+age);jsp中页面抓取2.js抓取参数在当前JSP中设置一个隐藏的$("...

分类：Web程序时间：2015-08-18 17:59:58 阅读次数：137

wecenter—开启CURL扩展，让服务器支持PHP curl函数(远程采集)

curl()、file_get_contents()、snoopy.class.php这三个远程页面抓取或采集中用到的工具，默迹还是侵向于用snoopy.class.php，因为他效率比较高且不需要服务器特定配置支持，在普通虚拟主机中即可使用；file_get_contents()效率稍低些，常用失...

分类：Web程序时间：2015-08-15 21:21:47 阅读次数：149

scrapy系列教程一——scrapy介绍和scrapy安装

1、scrapy可以做什么？ Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取(更确切来说,网络抓取)所设计的，也可以应用在获取API所返回的数据(例如Amazon Associates W....

分类：其他好文时间：2015-08-10 13:26:15 阅读次数：105

使用selenium抓取JS动态生成的页面

在抓取网页数据时，传统jsoup方案只能对静态页面有效，而有些网页数据往往是js生成的，所以这时候需要其它的方案。首先的思路是分析js程序，对js的请求进行再次抓取，这适合于特定的页面抓取，要做到对不同目标URL的通用性，比较麻烦。第二种思路，也是比较成熟的做法是利用第三方的驱动渲染页面，然后下载。这里介绍一下第二种实现思路。 Selenium是一个模拟浏览器的自动化测试工具，它...

分类：Web程序时间：2015-07-31 20:21:44 阅读次数：171

开启CURL扩展，让服务器支持PHP curl函数(远程采集)

关于开启Curl的方法模板天下小编在此给大家简单说一下curl()、file_get_contents()、snoopy.class.php这三个远程页面抓取或采集中用到的工具，默迹还是侵向于用snoopy.class.php，因为他效率比较高且不需要服务器特定配置支持，在普通虚拟主机中即可使用，f...

分类：Web程序时间：2015-07-21 16:44:27 阅读次数：130

共78条上一页 1 ... 4 5 6 7 8 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)