xpath解析html标签

时间：2018-04-10 19:45:02 阅读：921 评论：0 收藏：0 [点我收藏+]

标签：port 标签 path load sys unicode div import html解析

最近忙一个需求：把一个字符串形式的html文档转化成excel。

分解需求：

① 实现语言 ———— python

② html解析 ———— 用 lxml库的etree工具，xpath方式解析文档树

③ 写excel ———— 用 xlwt库写excel

代码片段：

# -*- coding:utf-8 -*-
from __future__ import unicode_literals
import os, sys
reload(sys)
sys.setdefaultencoding(‘utf8‘)
import MySQLdb
import json
import xlwt
from lxml import etree

# 解析html字符串的方法

def change(data):
html = etree.HTML(str(data))
divs = html.xpath(‘//div[@class="content"]/div‘)
img_top = divs[0].xpath(‘./img/@src‘)
p_top_tmp_list = divs[0].xpath(‘./p/text()‘)

... ...

# 写excel的方法

def write_excel(filename, data):
book = xlwt.Workbook() #创建excel对象
sheet = book.add_sheet(‘sheet1‘) #添加一个表
c = 0 #保存当前列
for d in data: #取出data中的每一个元组存到表格的每一行
for index in range(len(d)): #将每一个元组中的每一个单元存到每一列
sheet.write(c,index,d[index])
c += 1
book.save(filename) #保存excel

xpath解析html标签

标签：port 标签 path load sys unicode div import html解析

原文地址：https://www.cnblogs.com/yuzhaoblog/p/8781642.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行