码迷,mamicode.com
首页 > Web开发 > 详细

xpath解析html标签

时间:2018-04-10 19:45:02      阅读:921      评论:0      收藏:0      [点我收藏+]

标签:port   标签   path   load   sys   unicode   div   import   html解析   

最近忙一个需求:把一个字符串形式的html文档转化成excel。

分解需求:

      ① 实现语言 ———— python

      ② html解析 ———— 用 lxml库的etree工具,xpath方式解析文档树

      ③ 写excel ———— 用 xlwt库写excel

 

代码片段:

# -*- coding:utf-8 -*-
from __future__ import unicode_literals
import os, sys
reload(sys)
sys.setdefaultencoding(‘utf8‘)
import MySQLdb
import json
import xlwt
from lxml import etree

 

# 解析html字符串的方法

def change(data):              
    html = etree.HTML(str(data))
    divs = html.xpath(‘//div[@class="content"]/div‘)
    img_top = divs[0].xpath(‘./img/@src‘)
    p_top_tmp_list = divs[0].xpath(‘./p/text()‘)

       ... ...

 

# 写excel的方法

def write_excel(filename, data):
    book = xlwt.Workbook()                      #创建excel对象
    sheet = book.add_sheet(‘sheet1‘)         #添加一个表
    c = 0                                                #保存当前列
    for d in data:                                     #取出data中的每一个元组存到表格的每一行
        for index in range(len(d)):                #将每一个元组中的每一个单元存到每一列
            sheet.write(c,index,d[index])
        c += 1
    book.save(filename)                           #保存excel

 

xpath解析html标签

标签:port   标签   path   load   sys   unicode   div   import   html解析   

原文地址:https://www.cnblogs.com/yuzhaoblog/p/8781642.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!