URL、URI、URNURL:protocol :// hostname[:port] / path / [;parameters][?query]#fragment
分类:
编程语言 时间:
2014-10-01 00:28:10
阅读次数:
182
了解xml :
解析之前首先对xml 做个了解。
来自维基百科的解释:
XML设计用来传送及携带数据信息,不用来表现或展示数据,HTML语言则用来表现数据,所以XML用途的焦点是它说明数据是什么,以及携带数据信息。
如果你已经了解xml,可以跳过这一部分。
xml是一种描述层次结构化数...
分类:
编程语言 时间:
2014-09-22 21:43:53
阅读次数:
347
#-*-coding:utf-8-*-#python:2.x__author__='Administrator'importurllib2#例子LOGIN='wesc'PASSWD="you'llNeverGuess"URL='http://localhost'defh1(url):fromurlp...
分类:
编程语言 时间:
2014-09-13 17:10:35
阅读次数:
247
python网络爬虫学习笔记
By 钟桓
9月 4 2014 更新日期:9月 4 2014
文章目录
1. 介绍:2. 从简单语句中开始:3. 传送数据给服务器4. HTTP头—描述数据的数据5. 异常
5.0.1. URLError5.0.2. HTTPError5.0.3. 处理异常5.0.4. info和geturl
6. Opener和Handler7. Ba...
分类:
编程语言 时间:
2014-09-04 15:04:19
阅读次数:
357
http://blog.csdn.net/pi9nc/article/details/9734437 一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面...
分类:
编程语言 时间:
2014-08-26 00:06:55
阅读次数:
299
最近在看国外的文档,有些生词不认识。就用谷歌翻译来理解,用着用着闲来无事就按F12查看了下页面的源代码。发现可以用python简单的实现下谷歌翻译的页面功能。于是先上网搜下有没有类似的文章博客,发现几篇不错的,于是参考其他代码与自己的思路,简单的实现了下翻译的功能,代码如下:
import re
import urllib,urllib2
#----------模拟浏览器的行为,向谷...
分类:
编程语言 时间:
2014-08-03 20:39:45
阅读次数:
338
最近,为了微信公众号的图文,上网疯狂的收集和看了一些有深度的新闻和有趣的引人深思的文字评论,并选择了几篇极品发布出去。但感觉一篇一篇的看实在是麻烦死了。想找一个简单的解决办法,看能不能自动把网上的资料收集起来,然后自己用统一筛选。不巧,最近准备学习下网络爬虫相关知识,于是按照网上的教程自己学着试写了一个小小的爬虫,嘻嘻,是用来爬韩寒博客的。
先把完整的代码贴上来,如果朋友们需要试验下,请...
分类:
编程语言 时间:
2014-07-06 10:11:48
阅读次数:
325
在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and
geturlurlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl():这个返回获取的真实的URL,这个很有用,因为urlopen(或...
分类:
编程语言 时间:
2014-05-26 23:17:30
阅读次数:
352
先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python
APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP
URLs中产生。1.URLError...
分类:
编程语言 时间:
2014-05-26 23:17:09
阅读次数:
341
Originated
From:http://blog.csdn.net/pi9nc/article/details/9734437#comments[Python]网络爬虫(一):抓取网页的含义和URL基本构成一、网络爬虫的定义网络爬虫,即Web
Spider,是一个很形象的名字。把互联网比喻成一...
分类:
编程语言 时间:
2014-05-25 23:58:31
阅读次数:
584