标签:omd ota info reads latex cts under you pre
微软发布
word和latex两种格式。
该数据集包含约46.6万个表格-Latex代码对样例,从文档层面分为了训练集(约44.7万)、验证集(约0.9万)和测试集(约0.9万)。这个数据集实际上将表格结构识别任务作为了一个图像到文本(Image2Text)的转化任务。
《DECO: A Dataset of Annotated Spreadsheets for Layout and Table Recognition》,作者通过抽取EnronCorpus,得到了一个包含1165份文件的数据集。该数据将表格的非空单元格标注为表格头、数据和注释等,同时注明了表格边界。对于不含表格的文件,使用了例如:模板、表单、报表等类别进行标注。
https://wwwdb.inf.tu-dresden.de/researchprojects/deexcelarator/
ICDAR2019表格检测与识别比赛(ICDAR2019 Competition on Table Detection and Recognition, cTDaR),是一个面向表格检测与识别任务的比赛,比赛官方网站为http://sac.founderit.com/。
标签:omd ota info reads latex cts under you pre
原文地址:https://www.cnblogs.com/xuehuiping/p/14214883.html