标签:style blog class c code java
我在编写一段pythn爬虫的时候遇到一个估计是编码的问题,可以怎么也解决不好。代码如下:
#- * - coding: UTF-8 -*- import urllib.request import re html = urllib.request.urlopen("http://weibo.com/p/1005052998938613/follow?relate=fans&from=100505&wvr=5&mod=headfans").read().decode(‘utf-8‘) print(html) groups = re.compile(r‘fnick=(.+?)&‘, re.M | re.S).findall(html) for i in groups: print(i)
我想获取某人(随便找的,方便你查看网页)的新浪微博的粉丝列表,我看html的编码方式是urf-8,所以采用了-8的解码方式。可是每次都报这样的错误:
可是获取这个html的title(关注我的人 微博-随时随地分享身边的新鲜事儿)却是可以的。而如果我把真个网页内容当做一个字符串放在py里面的话,一切解析正常。另外,我获取58、搜狐等一些网站的内容并解析都是好好的,唯有新浪微博这么难弄。真不明白这是怎么回事,希望懂这方面的童鞋可以帮我解答一下。
python爬虫问题请教一下大家(急等回复),布布扣,bubuko.com
标签:style blog class c code java
原文地址:http://www.cnblogs.com/xuchaosheng/p/3738873.html