目录:信息采集入门系列目录下面记录的是我自己整理的C#请求页面核心类,主要有如下几个方法1.HttpWebRequest Get请求获得页面html2.HttpWebRequestPost请求获得页面html3.模拟登录获得cookie内容4.模拟登录获得cookie字符串5.代理的设置6.利用we...
已经做搜索一段时间了,觉得有必要记录下来,不然就没有沉淀了,这个系列准备一直延续下去,后面也会有越来越多高深点的东西等着去学习。目前准备有这些内容,后面会慢慢的添加入门篇1.C#获取网页信息核心方法(入门系列一)2.页面解析和内容提取3.SOLR的增删改查4.Nutch爬虫的使用5.自己开发的一.....
分类:
其他好文 时间:
2015-04-11 11:33:25
阅读次数:
117
//网页宽度var w=window.innerWidth|| document.documentElement.clientWidth|| document.body.clientWidth;//网页高度var h=window.innerHeight|| document.documentEle...
分类:
编程语言 时间:
2015-04-03 12:48:47
阅读次数:
145
有了url之后,用xpath表达式提取出来,再写到文件里即可...
分类:
Web程序 时间:
2015-04-03 09:35:12
阅读次数:
167
【问题】python中已获取网页:http://blog.csdn.net/hfahe/article/details/5494895的html源码,其时UTF-8编码的。提取出其标题部分: 在2008 Beijing Perl 大会的演讲-使用Mason开发高性能的W...
分类:
Web程序 时间:
2015-04-03 00:09:28
阅读次数:
299
在C#编写代码,很多时候会遇到Http协议或者TCP协议,这里做一个简单的理解。
TCP协议对应于传输层,而HTTP协议对应于应用层,从本质上来说,二者没有可比性。Http协议是建立在TCP协议基础之上的,当浏览器需要从服务器获取网页数据的时候,会发出一次Http请求。Http会通过TCP建立起一个到服务器的连接通道,当本次请求需要的数据完毕后,Http会立即将TCP连接断开,这个过程是很短...
分类:
Web程序 时间:
2015-04-01 21:54:33
阅读次数:
157
如果要使用中间的方法的话,可以访问我的帮助类完全免费开源:C# HttpHelper,帮助类,真正的Httprequest请求时无视编码,无视证书,无视Cookie,网页抓取1.第一招,根据URL地址获取网页信息 先来看一下代码get方法C# Code复制内容到剪贴板publicstaticstri...
function getClientHeight(){ //可见高 var clientHeight=document.body.clientHeight;//其它浏览器默认值 if(navigator.userAgent.indexOf("MSIE 6.0")!=-1) {...
分类:
Web程序 时间:
2015-04-01 16:53:10
阅读次数:
142
Shell脚本实现获取网页快照并生成缩略图 这篇文章主要介绍了Shell脚本实现获取网页快照并生成缩略图,本文获取网页快照使用phantomjs、生成缩略图使用ImageMagick,需要的朋友可以参考下获取网页快照并生成缩略图可分两步进行:1、获取网页快照2、生成缩略图获取网页快照这里我们用 p....
分类:
Web程序 时间:
2015-04-01 10:49:04
阅读次数:
263
利用python抓取网络图片的步骤:
1.根据给定的网址获取网页源代码
2.利用正则表达式把源代码中的图片地址过滤出来
3.根据过滤出来的图片地址下载网络图片
import urllib
import re
import os
#urllib,r...
分类:
编程语言 时间:
2015-04-01 09:37:09
阅读次数:
171