码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫详解

时间:2016-07-20 10:31:19      阅读:128      评论:0      收藏:0      [点我收藏+]

标签:

Python 如何访问互联网?

我们可以通过Python自带的urllib来访问互联网. urllib=url+lib  

其中URL就是我们常说的 网页地址(http://www.baidu.com) . 

url 的一般格式 是

protocol://hostname[:port]/path/[;parhmenters][?query]#fagment

url 有三部分组成 .

-第一部分 : http,https,ftp,file(访问本地文件.),ed2k...

-第二部分 : 存放资源的服务器域名系统或者ip地址(有事需要包括端口号,各种传输协议都有默认的端口号,如http的默认端口为80) , 中括号内的是可选的端口 , http的默认端口是  80  如果 没有写的话 , 会自动默认 80 如果写上其他的 就会出现这样的情况 . 

-第三部分 : 资源的具体地址如目录或者文件名

1 import urllib.request
2 import time
3 response=urllib.request.urlopen("http://www.fishc.com/")
4 html=response.read()
5 html=html.decode(utf-8)
6 print(html)
7 time.sleep(20)

 

爬虫详解

标签:

原文地址:http://www.cnblogs.com/A-FM/p/5687248.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!