码迷,mamicode.com
首页 > 其他好文 > 详细

表格识别数据集

时间:2021-01-04 11:12:26      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:omd   ota   info   reads   latex   cts   under   you   pre   

  • ICDAR 表格识别竞赛
  • TableBank
  • DocBank
  • TABLE2LATEX-450K
  • DECO

https://github.com/doc-analysis/TableBank

微软发布
word和latex两种格式。
技术图片

技术图片

https://github.com/doc-analysis/DocBank

技术图片

https://github.com/bloomberg/TABLE2LATEX

该数据集包含约46.6万个表格-Latex代码对样例,从文档层面分为了训练集(约44.7万)、验证集(约0.9万)和测试集(约0.9万)。这个数据集实际上将表格结构识别任务作为了一个图像到文本(Image2Text)的转化任务。
技术图片

DECO

《DECO: A Dataset of Annotated Spreadsheets for Layout and Table Recognition》,作者通过抽取EnronCorpus,得到了一个包含1165份文件的数据集。该数据将表格的非空单元格标注为表格头、数据和注释等,同时注明了表格边界。对于不含表格的文件,使用了例如:模板、表单、报表等类别进行标注。
https://wwwdb.inf.tu-dresden.de/researchprojects/deexcelarator/

ICDAR2019

ICDAR2019表格检测与识别比赛(ICDAR2019 Competition on Table Detection and Recognition, cTDaR),是一个面向表格检测与识别任务的比赛,比赛官方网站为http://sac.founderit.com/。

参考

表格识别数据集

标签:omd   ota   info   reads   latex   cts   under   you   pre   

原文地址:https://www.cnblogs.com/xuehuiping/p/14214883.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!