在C#编写代码,很多时候会遇到Http协议或者TCP协议,这里做一个简单的理解。
TCP协议对应于传输层,而HTTP协议对应于应用层,从本质上来说,二者没有可比性。Http协议是建立在TCP协议基础之上的,当浏览器需要从服务器获取网页数据的时候,会发出一次Http请求。Http会通过TCP建立起一个到服务器的连接通道,当本次请求需要的数据完毕后,Http会立即将TCP连接断开,这个过程是...
分类:
其他好文 时间:
2014-06-04 13:14:06
阅读次数:
296
代码功能:通过java代码获取网页源代码:所用工具:Myclipse8.5+tomcat6.0+浏览器系统环境:windowsxp旗舰版火狐浏览器版本:IE浏览器版本:测试http协议有错误java代码如下。import
java.io.BufferedReader;import java.io.I...
分类:
编程语言 时间:
2014-05-29 10:47:11
阅读次数:
439
使用PHP的cURL库可以简单和有效地去抓网页,您只需要运行一个脚本,然后分析一下您所抓取的网页,然后就可以以程序的方式得到您想要的数据了。无论是您想从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,哪怕就是简单的获取网页内容,cURL是一个功能强大的PHP库。本文主要讲述如果使用这个P...
分类:
Web程序 时间:
2014-05-26 09:40:36
阅读次数:
315
现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...
分类:
Web程序 时间:
2014-05-26 05:54:50
阅读次数:
393
通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。
1. 网络爬虫本质就是浏览器http请求。
浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页:
1)首先, 客户端程序连接到域名系统...
分类:
其他好文 时间:
2014-05-26 05:26:52
阅读次数:
358
getElementById getElementsByName
getElementsByTagName 大概介绍 getElementById ,getElementsByName
,getElementsByTagName 后两个是得到集合,byid只是得到单个对象 getElement...
分类:
Web程序 时间:
2014-05-24 00:56:55
阅读次数:
358
一、获取网页源代码
1.不含有框架
string s=WB1.DocumentText; //webbrowser1命名为WB1,下同
2.含有框架
引用mshtml; //位置C:\Program Files\Microsoft.NET\Primary Interop Assemblies\Microsoft.mshtml...
分类:
Web程序 时间:
2014-05-23 01:30:49
阅读次数:
283
cURL是一个利用URL语法规定来传输文件和数据的工具,支持很多协议,如HTTP、FTP、TELNET等。最爽的是,PHP也支持
cURL 库。本文将介绍 cURL 的一些高级特性,以及在PHP中如何运用它。为什么要用
cURL?是的,我们可以通过其他办法获取网页内容。大多数时候,我因为想偷懒,都直...
分类:
其他好文 时间:
2014-05-20 11:32:49
阅读次数:
451
js获取网页的各种高度,例如可见区域、正文以及屏幕分辨率的高度的方法。有关document的一些属性:网页可见区域宽:
document.body.clientWidth网页可见区域高: document.body.clientHeight 网页可见区域宽:
document.body.offset...
分类:
Web程序 时间:
2014-05-15 21:59:31
阅读次数:
433