码迷,mamicode.com
首页 >  
搜索关键字:页面抓取    ( 78个结果
C#页面抓取信息
//根据Url地址得到网页的html源码 private string GetWebContent(string Url) { string strResult=""; try { ...
分类:Windows程序   时间:2015-07-20 12:30:47    阅读次数:153
php 编写网络爬虫
pcntl_fork或者swoole_process实现多进程并发。按照每个网页抓取耗时500ms,开200个进程,可以实现每秒400个页面的抓取。 curl实现页面抓取,设置cookie可以实现模拟登录 simple_html_dom 实现页面的解析和DOM处理...
分类:Web程序   时间:2015-06-26 13:39:25    阅读次数:231
一道企业shell编程实战题-看看谁能快速搞定
问题如下:已知老男孩教育于2015年5月21日发布了如下最新运维经典课程,http://edu.51cto.com/course/course_id-839.html要求:把课程地址里的所有课程标题(约140节)做成可以点击直接浏览的html页面(请做成表格形式,每行一个课程名,课程名按顺序加上ID),就是点击具体的..
分类:系统相关   时间:2015-06-01 14:55:24    阅读次数:193
基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档
文档内容说明 文档内容主要涉及基于 http://git.oschina.net/xautlx/nutch-ajax 项目内容(额外包含一些Nutch和Solr标准的功能和原理说明但不保证完整性)的设计和开发过程讲解。具体可详见文档目录列表。 主要功能特性 常规的HTML页面抓取: 对于常规的例如新闻类没有AJAX特性的页面可以直接用Nutch自带的protocol-http插件抓取。 常规的AJAX页面抓取: 对于绝大部分诸如jQuery ajax加载的页面,可以直接用htmlunit扩展插件抓取。 ...
分类:其他好文   时间:2015-05-04 15:33:08    阅读次数:294
XX之家的爬虫之旅
[导读] 因为本人公司正处于P2P的行业,分析行业数据,对平台的运营决策有着很大的作用,因此需要爬XX之家的相关数据。1、分析 通过右键查看页面源代码发现页面结构为表格布局,因此设想可以分为四个步骤来采集数据:1、使用爬虫将页面抓取下来;2、对页面数据进行解析;3、入库;4、写个定时服务每天定时抓取...
分类:其他好文   时间:2015-04-14 09:43:09    阅读次数:205
C# 页面抓取类
抓取网站页面的内容,简单的类应用,代码如下: /// /// 获取页面内容 /// /// Url链接 /// public string WebHtmlCon(string url) { ...
分类:Windows程序   时间:2015-04-13 18:30:21    阅读次数:204
WebClient在多线程、使用代理情况下 socket closed 问题的一个解决办法[htmlunit]
通过 WebClient 的内置浏览器,可以执行页面抓取工作,有时可能需要设置代理,WebClient webClient = new WebClient(BrowserVersion.x);webClient.setProxyConfig(ProxyConfig pc);在单线程情况下,使用这样创...
分类:编程语言   时间:2015-01-06 15:13:44    阅读次数:1583
NodeJS抓取Web页面的编码问题
最近在做毕设需要用到的爬虫系统,页面抓取这一块使用的是NodeJS语言,在最开始写的页面抓取的程序中,针对gb2312编码的页面保存完后显示的是乱码,开始认为在用Java读取文件时进行一个编码转换工作就可以解决了,但是试了半天,编码只会越来越慢,后来猜想,NodeJS请求到的页面的Body传输过.....
分类:Web程序   时间:2015-01-05 23:10:40    阅读次数:269
百度搜索引擎工作原理
根据上图解释的搜索引擎工作原理,笔者要一步一步为大家解释,讲解。进行完整的seo培训服务。1、www:我们的互联网,一个巨大的、复杂的体系;2、搜集器:这个我们站长们就都熟悉了,我们对它的俗称也就是蜘蛛,爬虫,而他的工作任务就是访问页面,抓取页面,并下载页面;3、控制器:蜘蛛下载下来的传给控制器,功...
分类:其他好文   时间:2015-01-03 13:05:07    阅读次数:164
如何跨站抓取别的站点的页面的补充
在实际的应用中,经常会遇到一些特殊的情况,比如需要新闻,天气预报,等等,但是作为个人站点或者实力小的站点 我们不可能有那么多的人力 物力 财力去做这些事情,怎么办呢?好在互联网是 资源共享的,我们可以利用程序 自动的把别的站点的页面抓取回来经过处理后被我们所利用。用什么呢,那个战友给的是不行的,其实...
分类:其他好文   时间:2014-11-05 12:35:18    阅读次数:178
78条   上一页 1 ... 5 6 7 8 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!