码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫网址

时间:2016-05-15 23:58:27      阅读:264      评论:0      收藏:0      [点我收藏+]

标签:

  1. #获取<a href></a>中的URL  
  2. print u‘\n获取链接中URL:‘  
  3. res_url = r"(?<=href=\").+?(?=\")|(?<=href=\‘).+?(?=\‘)"  
  4. link = re.findall(res_url ,  content, re.I|re.S|re.M)
  5. for url in link:  
  6.  print url  

 

(?<=href=\").+?(?=\")|(?<=href=\‘).+?(?=\")"

(?<=href=\").+?(?=\")

前边是href="有一个或多个.

最后一个字符是“    前边的\是转意

 绿色部分很重要,是正则的贪婪表示,取最小部分匹配。

http://blog.csdn.net/eastmount/article/details/51082253。。。。。。。。。。。受益匪浅

爬虫网址

标签:

原文地址:http://www.cnblogs.com/8335IT/p/5496516.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!