Python+Selenium之摘取网页上全部邮箱

时间：2017-12-06 18:14:17 阅读：217 评论：0 收藏：0 [点我收藏+]

标签：baidu re模块匹配表达 print web 不同场景内容

本文转载：http://blog.csdn.net/u011541946/article/details/68485981

练习场景：在某一个网页上有些字段是我们感兴趣的，我们希望摘取出来，进行其他操作。但是这些字段可能在一个网页的不同地方。例如，我们需要在关于百度页面-联系我们，摘取全部的邮箱。

技术分享图片

思路拆分：

1. 首先，需要得到当前页面的source内容，就像，打开一个页面，右键-查看页面源代码。

2. 找出规律，通过正则表达式去摘取匹配的字段，存储到一个字典或者列表。

3. 循环打印字典或列表中内容，Python中用 for 语句实现。

技术角度实现相关方法：

1. 查看页面的源代码，在Selenium中有driver.page_source 这个方法得到

2. Python中利用正则，需要导入re模块

3. for email in emails :

print email

 1 # coding=utf-8  
 2   
 3 from selenium import webdriver  
 4 import re  
 5   
 6 driver = webdriver.Chrome()  
 7 driver.maximize_window()  
 8 driver.implicitly_wait(6)  
 9   
10 driver.get("http://home.baidu.com/contact.html")  
11 # 得到页面源代码  
12 doc = driver.page_source  
13 emails = re.findall(r‘[\w]+@[\w\.-]+‘,doc) # 利用正则，找出 xxx@xxx.xxx 的字段，保存到emails列表  
14 # 循环打印匹配的邮箱  
15 for email in emails:  
16     print (email)

解释：

在python正则表达式语法中，Python中字符串前面加上 r 表示原生字符串，用\w表示匹配字母数字及下划线。re模块下findall方法返回的是一个匹配子字符串的列表。

技术分享图片

Python+Selenium之摘取网页上全部邮箱

标签：baidu re模块匹配表达 print web 不同场景内容

原文地址：http://www.cnblogs.com/fengyiru6369/p/7993230.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行