码迷,mamicode.com
首页 > 其他好文 > 详细

excel 大文件解析原理实现

时间:2019-05-29 23:34:42      阅读:155      评论:0      收藏:0      [点我收藏+]

标签:报错   结构   存在   read   遍历   reads   压缩包   string   复杂   

 

 

问题

目前的excel 不像之前的excel了可以支持的数据量更大,可以支持支持1048576行,16384列。

之前使用poi读取,直接报错,使用excel 事件的方式读取,还有不少的bug,关键是程序写的很复杂。

 

解决方案

我们知道excel 文件实际上是一个压缩包来的,我们将excel 直接改名为rar或zip文件。

技术图片

我们可以将文件解压出来。

技术图片

我们可以看到excel 实际上是一堆xml文件的集合。

技术图片

worksheets 中实际存了 这个excel的sheets数据。

技术图片

但是excel 在存数据的时候,他会将字符串数据存在在sharedString.xml 文件中。

sharedString.xml 文件数据如下:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<sst
    xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main" count="6" uniqueCount="4">
    <si>
        <t>guangzhou</t>
    </si>
    <si>
        <t>beijing</t>
    </si>
    <si>
        <t>hujun</t>
    </si>
    <si>
        <t>c</t>
    </si>
</sst>

这个数据存放了字符串的数据。

我们看xml文件可以得知。

技术图片

 

 这里0,1,2,3 存的是 sharedString.xml 字符串的下标。

数字和日期型数据是直接存放在sheets 数据中的。

日期型数据的存储有些特殊

技术图片

比如这个 他的日期实际是 2019-5-29日,这个是怎么计算的呢,他实际是从1900-0-0 开始加上43614天。

因此 明白了excel的结构 ,我们就很容易去实现读excel的代码,可以绕开poi哪些api。

直接读取xml。

 

实现思路

1.将文件解压。

2.读取sharedString.xml 将数据读取到list列表。

3.读取sheet.xml文件数据,遍历这个数据,将字符串的数据,去上面的列表中查找,其他类型的数据直接在sheet.xml 中读取。

 

excel 大文件解析原理实现

标签:报错   结构   存在   read   遍历   reads   压缩包   string   复杂   

原文地址:https://www.cnblogs.com/yg_zhang/p/10946943.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!