python 爬蟲　解析／正则匹配／乱码问题整理

时间：2017-05-25 18:23:10 阅读：302 评论：0 收藏：0 [点我收藏+]

标签：input bsp lin match parse 模块 web data 显示

今日爬取一听／扬天音乐都遇到了某些问题，现在对爬取过程中遇到的问题，做对于自己而言较为系统的补充与解释。主要问题有一下几点：

一：beautiful,urllib等库进行网页解析时，对于目标下的东西无法进行解析与显示

二：正则匹配虽然看过许多，但实际使用时仍然不够熟练，需要大量参考，故而，打算重新整理

三：对于乱码问题，曾在建mysql数据库时，头疼多次，现打算对于网页解析的乱码处理方法做些整理

这次目标是爬取扬天音乐“http://up.mcyt.net/”，需要获取的内容有：歌曲名，歌手以及打开浏览器即可播放的音乐链接（格式大致：http://up.mcyt.net/md5/53/******.mp3）

这个任务相对简单，至少在爬虫道路上遇到了又一新情形，故在此稍加叙述。

现在需要爬取截图中的音乐外接，如下图，以及与之对应的web元素

技术分享

<label>

　　<br>

　　<span>a网页代码：</span>

<label>

一开始使用的是常规的BeautifulSoup框架进行解析：

response = urlopen(url)

bsObj = BeautifulSoup(response, "html.parser")

li=bsObj.findAll("input",{"type":"text" ,"name":"name"})li=bsObj.findAll("input",　{"type":　"text" })

print li

但是返回的结果，无法通过li.attrs[‘value‘]获取需求的字符串。原因：以上思路对应的网站元素的格式是　

解决方法：

首先解析到<input "attr1"="xxx" "attr2"="xxx">的上一层的target，然后再采用正则的方法获取对应的attrs,

def getInfo(html):

　　reg=r‘value="(.+?.mp3)" ‘ #传说中的　pattern

　　mp3=re.compile(reg)

　　mp3list=re.findall(mp3,html)

　　return mp3list

现在进入第二部分的整理：正则匹配。

１．Python支持的正则表达式元字符和语法

技术分享

２．re模块：使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例，然后使用Pattern实例处理文本并获得匹配结果（一个Match实例），最后使用Match实例获得信息，进行其他的操作。

import re

# 将正则表达式编译成Pattern对象

pattern = re.compile(r‘hello‘)

# 使用Pattern匹配文本，获得匹配结果，无法匹配时将返回None

match = pattern.match(‘hello world!‘)

if match:

# 使用Match获得分组信息

print match.group()

### 输出 ###

# hello

３．本次使用以上　详细的正则可参考:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html#top　和　相关的拓展：www.cnblogs.com/animalize/p/4949219.html

python 爬蟲　解析／正则匹配／乱码问题整理

标签：input bsp lin match parse 模块 web data 显示

原文地址：http://www.cnblogs.com/Zhouwl/p/6901225.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

python 爬蟲 解析／正则匹配／乱码问题整理

python 爬蟲　解析／正则匹配／乱码问题整理