搜索关键字：页面抓取，搜索到78个结果！码迷,mamicode.com！

//根据Url地址得到网页的html源码 private string GetWebContent(string Url) { string strResult=""; try { ...

分类：Windows程序时间：2015-07-20 12:30:47 阅读次数：153

pcntl_fork或者swoole_process实现多进程并发。按照每个网页抓取耗时500ms，开200个进程，可以实现每秒400个页面的抓取。 curl实现页面抓取，设置cookie可以实现模拟登录 simple_html_dom 实现页面的解析和DOM处理...

分类：Web程序时间：2015-06-26 13:39:25 阅读次数：231

一道企业shell编程实战题-看看谁能快速搞定

问题如下：已知老男孩教育于2015年5月21日发布了如下最新运维经典课程，http://edu.51cto.com/course/course_id-839.html要求：把课程地址里的所有课程标题（约140节）做成可以点击直接浏览的html页面（请做成表格形式，每行一个课程名，课程名按顺序加上ID），就是点击具体的..

分类：系统相关时间：2015-06-01 14:55:24 阅读次数：193

基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档

文档内容说明文档内容主要涉及基于 http://git.oschina.net/xautlx/nutch-ajax 项目内容（额外包含一些Nutch和Solr标准的功能和原理说明但不保证完整性）的设计和开发过程讲解。具体可详见文档目录列表。主要功能特性常规的HTML页面抓取: 对于常规的例如新闻类没有AJAX特性的页面可以直接用Nutch自带的protocol-http插件抓取。常规的AJAX页面抓取: 对于绝大部分诸如jQuery ajax加载的页面，可以直接用htmlunit扩展插件抓取。 ...

分类：其他好文时间：2015-05-04 15:33:08 阅读次数：294

XX之家的爬虫之旅

[导读] 因为本人公司正处于P2P的行业，分析行业数据，对平台的运营决策有着很大的作用，因此需要爬XX之家的相关数据。1、分析通过右键查看页面源代码发现页面结构为表格布局，因此设想可以分为四个步骤来采集数据：1、使用爬虫将页面抓取下来；2、对页面数据进行解析；3、入库；4、写个定时服务每天定时抓取...

分类：其他好文时间：2015-04-14 09:43:09 阅读次数：205

C# 页面抓取类

抓取网站页面的内容，简单的类应用，代码如下： /// /// 获取页面内容 /// /// Url链接 /// public string WebHtmlCon(string url) { ...

分类：Windows程序时间：2015-04-13 18:30:21 阅读次数：204

WebClient在多线程、使用代理情况下 socket closed 问题的一个解决办法[htmlunit]

通过 WebClient 的内置浏览器，可以执行页面抓取工作，有时可能需要设置代理，WebClient webClient = new WebClient(BrowserVersion.x);webClient.setProxyConfig(ProxyConfig pc);在单线程情况下，使用这样创...

分类：编程语言时间：2015-01-06 15:13:44 阅读次数：1583

NodeJS抓取Web页面的编码问题

最近在做毕设需要用到的爬虫系统，页面抓取这一块使用的是NodeJS语言，在最开始写的页面抓取的程序中，针对gb2312编码的页面保存完后显示的是乱码，开始认为在用Java读取文件时进行一个编码转换工作就可以解决了，但是试了半天，编码只会越来越慢，后来猜想，NodeJS请求到的页面的Body传输过.....

分类：Web程序时间：2015-01-05 23:10:40 阅读次数：269

百度搜索引擎工作原理

根据上图解释的搜索引擎工作原理，笔者要一步一步为大家解释，讲解。进行完整的seo培训服务。1、www：我们的互联网，一个巨大的、复杂的体系;2、搜集器：这个我们站长们就都熟悉了，我们对它的俗称也就是蜘蛛，爬虫，而他的工作任务就是访问页面，抓取页面，并下载页面;3、控制器：蜘蛛下载下来的传给控制器，功...

分类：其他好文时间：2015-01-03 13:05:07 阅读次数：164

如何跨站抓取别的站点的页面的补充

在实际的应用中，经常会遇到一些特殊的情况，比如需要新闻，天气预报，等等，但是作为个人站点或者实力小的站点我们不可能有那么多的人力物力财力去做这些事情，怎么办呢？好在互联网是资源共享的，我们可以利用程序自动的把别的站点的页面抓取回来经过处理后被我们所利用。用什么呢，那个战友给的是不行的，其实...

分类：其他好文时间：2014-11-05 12:35:18 阅读次数：178

共78条上一页 1 ... 5 6 7 8 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)