码迷,mamicode.com
首页 > 编程语言 > 详细

python练习册 每天一个小程序 第0009题

时间:2017-07-15 20:27:32      阅读:255      评论:0      收藏:0      [点我收藏+]

标签:小程序   mpi   int   题目   文件   .com   log   tps   nbsp   

 1 ‘‘‘
 2 题目描述:
 3   找出一个html文件中所有的url
 4   
 5 思路 :
 6   利用正则表达式进行匹配
 7 
 8 ‘‘‘
 9 
10 
11 import re
12 
13 
14 with open(test.txt) as fp:
15     text = fp.read()
16     pattern = re.compile(
17         "((http|ftp|https)://)(([a-zA-Z0-9\._-]+\.[a-zA-Z]{2,6})|([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}))(:[0-9]{1,4})*(/[a-zA-Z0-9\&%_\./-~-]*)?", re.DOTALL)
18     urls = pattern.findall(text)
19     for i in urls:
20         full_url = ‘‘
21         for url in i:
22             full_url += url
23 
24         print full_url

 

python练习册 每天一个小程序 第0009题

标签:小程序   mpi   int   题目   文件   .com   log   tps   nbsp   

原文地址:http://www.cnblogs.com/deen-/p/7184045.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!