码迷,mamicode.com
首页 > 编程语言 > 详细

Python編碼格式錯誤解決方案及案例

时间:2019-07-24 13:41:24      阅读:166      评论:0      收藏:0      [点我收藏+]

标签:中文   enter   sys   utf-8   cte   osi   解析   特殊   iter   

Python格式錯誤解決方案及案例

  這幾天在玩爬蟲,在解析和提取内容時經常出現由於内容格式問題導致出錯,為防止以後出錯,整下一下,以下是這幾天的總結:

  1. 特殊符號或表情符號等

    背景:爬取一個烹飪教學網站,在用BeautifulSoup解析網頁時報錯:

    UnicodeEncodeError: ‘UCS-2‘ codec can‘t encode character ‘\U0001f44d‘ in position 0: Non-BMP character not supported in Tk

    解決方法

    import sys

    non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd)

    targetText=targetText.translate(non_bmp_map)

    其中targetText即你需要轉化的文本。

 

  2. csv中寫入中文出現亂碼

    背景:csv module是經典的操作csv控件的方法,一般來説操作csv文件都會用‘utf-8‘格式編碼,如下:

    

import csv 

targetText=[abc,efg]

csv_target=open(mycsv.csv,a+,newlien=‘‘,encoding=utf-8)

writer=csv.writer(csv_target)

writer.writerow(targetText)

csv_target.close()

往其中寫入中文時(即targetText包含中文時,如targetText=[‘張三‘,‘李四‘])會出現亂碼。

 

    解決方法:修改編碼方式為‘utf-8-sig‘

import csv 

targetText=[張三,李四]

csv_target=open(mycsv.csv,a+,newlien=‘‘,encoding=utf-8)

writer=csv.writer(csv_target)

writer.writerow(targetText)

csv_target.close()

  

  python的編碼格式是個大坑.

  暫時先更新到這,後面遇到再繼續更新。

  

    

 

  

 

Python編碼格式錯誤解決方案及案例

标签:中文   enter   sys   utf-8   cte   osi   解析   特殊   iter   

原文地址:https://www.cnblogs.com/riocasture/p/11237197.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!