手把手教你用python打造网易公开课视频下载软件2-编码相关说明

时间：2014-06-02 13:37:05 阅读：287 评论：0 收藏：0 [点我收藏+]

函数getdownLoadInfo(url)主要实现核心功能：根据url地址，获取课程信息：课程名(courseTitle),课程数目(courseCount),可下载视频数目(videoCount),视频下载链接(videoUrl)：不过再讲解之前，需要对编码的相关知识进行说明：

#coding:utf-8

关于python编码的问题，的确是个值得研究的问题，因为简直是乱的一塌糊涂，大家可以看一些讲解的文章，这里不做深入讲解，只是给出结论性的东西，方便实际的使用：

1.正因为有了中文，才有了一系列关于编码的问题，如果全是英文，不用考虑编码问题，但是用中文实在是不可避免，例如注释、日志、以及抓取的网页的内容，往往会涉及到中文，所以还是应该了解些编码问题。

2.在eclipse中增加文件的编码声明后（如声明为utf-8）,那么保存后的.py文件，也会相应存储为utf-8的编码，这是IDE自动转化的，可以在eclipse的文件属性中查看，如下：

bubuko.com,布布扣

3.编码声明有多种写法，例如：#coding=utf-8,#coding:utf-8，#-*-coding:utf-8-*-，用哪种呢？结论是哪个都可以！为什么呢？请参看：http://blog.csdn.net/orangleliu/article/details/8755461

4.为什么要说这么多编码声明的知识呢？对于咱们要编写的软件有什么用呢？接下来看下面的代码：

rawhtml=urllib.urlopen(url).read()
htmlencoding=chardet.detect(rawhtml)[‘encoding‘]
html=rawhtml.decode(htmlencoding,‘ignore‘).encode(‘utf -8‘)

（1）其中通过urllib模块，利用urlopen打开具体的一个url地址，然后利用read方法，获取抓取的网页源代码，保存到变量rawhtml中；而rawhtml中就含有中文，至于网页的编码，又会是各种各样；

（2）通过charset模块的detect方法，可以获取原来网页的编码方式，保存到变量htmlencoding中；

（3）知道网页的编码方式后，把rawhtml内容decode（想象成解码）一下，ignore表示忽略其中不规范的东西，之后再encode（想象成编码）成utf-8（我们声明的编码），保存到html中，这样html就是utf-8编码了，后面处理就方便些了。

（4）上面三行代码是我看了很多文章后总结出来的，直接用吧，测试后没有发现出现什么问题，即使不了解编码，也可以保证不会错！

好了，网页代码的编码问题解决了，是不是就可以直接处理了？答案是NO！我们下一篇再讲怎么处理抓到的数据。

原文地址：http://www.cnblogs.com/wuguanglei/p/3763122.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行