现在经常需要在网页中获取相关内容。其中无非获取网页返回状态,以及查看网页获取的内容几个方面,那么在这方面来看requests可能比urllib2库更简便一些。比如:先用方法获取网页r = requests.get("http://www.baidu.com")#查看返回码r.status_code#...
分类:
编程语言 时间:
2014-11-13 00:21:11
阅读次数:
260
static void Main(string[] args) { WebRequest wrq = WebRequest.Create("http://www.baidu.com"); WebResponse wrs =...
在我本地测试当中:在IE、FireFox、Opera下都可以使用document.body.clientWidthdocument.body.clientHeight即可获得,很简单,很方便。而在公司项目当中:Opera仍然使用document.body.clientWidthdocument.bo...
分类:
Web程序 时间:
2014-11-11 12:30:20
阅读次数:
315
在使用initWithData等方法将NSData转换成NSString时,如果NSData的内容含有非encoding编码的字符,将会返回nil。
这个结果在很多时候可能并不是我们所希望的,比如在获取网页源码进行分析等方面,如果页面采用了utf-8编码,只是含有个别非utf-8字符,我们更希望转换NSString成功,抛弃(或替换)那些非法字符。
按照utf-8协议;如果一个字节小于0x80,那么他就是一个字符;
如果大于C0小于E0,表示2个字节组成的utf8字符(第一个是110开头的,第二个是10开头...
分类:
其他好文 时间:
2014-11-09 06:20:45
阅读次数:
243
边学边写代码,记录下来。这段代码用于批量抓取主站下所有子网页中符合特定尺寸要求的的图片文件,支持中断。原理很简单:使用BeautifulSoup4分析网页,获取网页和元素,对集合反复弹栈入栈,对集合进行筛选下载。具体代码如下:import osimport sysimport timeimport ...
分类:
编程语言 时间:
2014-11-07 16:42:18
阅读次数:
278
1.第一招,根据URL地址获取网页信息这招是入门第一式, 特点: 1.最简单最直观的一种,入门课程。 2.适应于明文,无需登录,无需任何验证就可以进入的页面。 3.获取的数据类型为HTML文档。 4.请求方法为Get/Postpublic static string GetUrltoHtml(str...
分类:
Web程序 时间:
2014-11-06 12:54:16
阅读次数:
289
禁止搜索引擎收录的方法(robots.txt)一、什么是robots.txt文件?搜索引擎通过一种程序robot(又称spider),自己主动訪问互联网上的网页并获取网页信息。您能够在您的站点中创建一个纯文本文件robots.txt,在这个文件里声明该站点中不想被robot訪问的部分,这样,该站点的...
分类:
其他好文 时间:
2014-11-04 14:43:23
阅读次数:
310
1.随机获取网页16进制颜色值1 color ="#"+("00000"+((Math.random()*16777215+0.5)>>0).toString(16)).slice(-6);2.有待添加
分类:
其他好文 时间:
2014-11-04 10:52:03
阅读次数:
153
测试网址:http://afish.cnblogs.com/p/3941211.html?id=1//获取域名或主机地址echo $_SERVER['HTTP_HOST'].""; #afish.cnblogs.com//获取网页地址echo $_SERVER['PHP_SELF'].""; #/p...
分类:
Web程序 时间:
2014-10-28 19:32:27
阅读次数:
240
在做抓取前,记得把php.ini中的max_execution_time设置的大点,不然会报错的。一、用Snoopy.class.php抓取页面 一个挺萌的类名。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等。 1)我现在要抓取一个网站的列表页的内容,我要抓取的是全国的医院信息.....
分类:
Web程序 时间:
2014-10-28 11:55:27
阅读次数:
249