python爬虫问题请教一下大家(急等回复)

时间：2014-05-22 00:59:35 阅读：354 评论：0 收藏：0 [点我收藏+]

我在编写一段pythn爬虫的时候遇到一个估计是编码的问题，可以怎么也解决不好。代码如下:

#- * - coding: UTF-8 -*-
import urllib.request
import re

html = urllib.request.urlopen("http://weibo.com/p/1005052998938613/follow?relate=fans&from=100505&wvr=5&mod=headfans").read().decode(‘utf-8‘)
print(html)
groups = re.compile(r‘fnick=(.+?)&‘, re.M | re.S).findall(html)
for i in groups:
    print(i)

我想获取某人（随便找的，方便你查看网页）的新浪微博的粉丝列表，我看html的编码方式是urf-8，所以采用了-8的解码方式。可是每次都报这样的错误:

bubuko.com,布布扣

可是获取这个html的title（关注我的人微博-随时随地分享身边的新鲜事儿）却是可以的。而如果我把真个网页内容当做一个字符串放在py里面的话，一切解析正常。另外，我获取58、搜狐等一些网站的内容并解析都是好好的，唯有新浪微博这么难弄。真不明白这是怎么回事，希望懂这方面的童鞋可以帮我解答一下。

python爬虫问题请教一下大家(急等回复),布布扣,bubuko.com

python爬虫问题请教一下大家(急等回复)

标签：style blog class c code java

原文地址：http://www.cnblogs.com/xuchaosheng/p/3738873.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行