网页内容以&#开头以;结尾的编码(四)转汉字--python

时间：2018-07-20 17:33:43 阅读：324 评论：0 收藏：0 [点我收藏+]

标签：and sim add outline 信息 ack htm follow 体会

在抓取下来的网页源码显示的是如下的内容,而不是可读性的汉字

（当然，如果是在Web页面上展示，则实体会自动被浏览器转为原字符，正常显示）

经查资料后得知, 在网页中以四开头的是HTML实体,具体什么是HTML实体,请百度:http://baike.baidu.com/view/4757776.htm

如何把汉字转换成HTML实体呢？

其实很简单，汉字的HTML实体由三部分组成，”&#+ASCII+;“ 即可。

Python中提供了一个模块：HTMLParser，里面有很多好用的方法，

我们可以使用：dir(HTMLParser.HTMLParser)查看该模块下的HTMLParser类属性，其中有一个方法：unescape()，

再使用：help(HTMLParser.HTMLParser.unescape)，可以看到该方法的说明信息，但是几乎没什么用。其实该方法就是将HTML实体（带有&#符号打头的）进行解码，转换为原有字符。下面是简单实例：

import HTMLParser
def decodeHtml(input):
    h = HTMLParser.HTMLParser()
    s = h.unescape(input)
    return s
c = (这里是要转码的以&#开头的内容, 如需测试请自行粘贴)

print decodeHtml(c)

网页内容以&#开头以;结尾的编码(四)转汉字--python

标签：and sim add outline 信息 ack htm follow 体会

原文地址：https://www.cnblogs.com/fanjp666888/p/9342521.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

网页内容以&#开头以;结尾的编码(&#22235;)转汉字--python

网页内容以&#开头以;结尾的编码(四)转汉字--python