python练习册每天一个小程序第0009题

时间：2017-07-15 20:27:32 阅读：255 评论：0 收藏：0 [点我收藏+]

 1 ‘‘‘
 2 题目描述：
 3   找出一个html文件中所有的url
 4   
 5 思路 ：
 6   利用正则表达式进行匹配
 7 
 8 ‘‘‘
 9 
10 
11 import re
12 
13 
14 with open(‘test.txt‘) as fp:
15     text = fp.read()
16     pattern = re.compile(
17         "((http|ftp|https)://)(([a-zA-Z0-9\._-]+\.[a-zA-Z]{2,6})|([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}))(:[0-9]{1,4})*(/[a-zA-Z0-9\&%_\./-~-]*)?", re.DOTALL)
18     urls = pattern.findall(text)
19     for i in urls:
20         full_url = ‘‘
21         for url in i:
22             full_url += url
23 
24         print full_url

标签：小程序 mpi int 题目文件 .com log tps nbsp

原文地址：http://www.cnblogs.com/deen-/p/7184045.html

踩

(0)

评论一句话评论（0）

python练习册 每天一个小程序 第0009题

python练习册每天一个小程序第0009题