【A26】基于电厂排放物报告的表格结构化重建【万维艾斯】
发布时间: 2022-11-24 16:51:07

本届A类赛题可通过以下方式提问与交流:

1、大赛官网团队账号-赛题答疑区提问,组委会定期收集问题提交至企业解答后公布;

2、可前往赛题答疑论坛(PC端点击链接):https://mastergo.com/file/77782156635006?utm_source=fwwb&utm_medium=saitishouce&utm_campaign=&utm_term=&utm_content=提问或交流,企业定期回复。



1.命题方向

智能计算

2.题目类别

计算类

3.题目名称

基于电厂排放物报告的表格结构化重建

4.背景说明

【整体背景】

电厂的数据种类繁多,日常工作中还需要审核多种多样的质检报告,而目前针对与这些报告大多采用人工手抄的方式进行统计,这常会导致一些不必要的问题,例如,采用人工手抄方式常因为抄错而带来繁琐的二次审核,进而增加工作量。其次随着信息化技术的发展,此种方法也不利于对数据的利用及分析。

因此针对上述问题亟待开发一种表格提取识别重建算法。该算法可以根据电厂上传的煤质检验检测报告,利用机器视觉技术,准确提取报告中元素数据信息,并且按照表格的结构输出成excel表格或者html文件。

【公司背景】

江苏万维艾斯网络智能产业创新中心有限公司由江苏省高等学校优秀科技创新团队(南京大学人工智能推理与学习团队)与南京科创投资(国资)共同投资。公司是国内首批以人工智能技术创新为核心价值的高新技术企业,旨在提高人工智能产业的自主创新能力,努力打造一个集国际技术转移、技术研发、国际合作、科技创业、咨询培训功能于一体的创新创业平台。

【业务背景】

机器视觉是江苏万维艾斯网络智能产业创新中心有限公司的一个业务方向。根据公司发展要求,需要开发基于表格元素重建的机器视觉任务,即从少量表格图片样本中提取出表格元素并按照表格的结构输出成excel,实现表格重建。

5.项目说明

【问题说明】

目前表格数据一共100张,训练集与验证集由比赛选手自己分配。表格数据中包含表格扫描件与表格拍照件。如图1所示。

1 表格图片示例

每张图片不提供标注信息,参赛选手自主选择合适技术路径并进行标注,并且可以自己补充数据进行训练。最终算法的输出结果可以是html文件或者excel文件,excel为最佳。html如图2所示,excel效果如图3所示。

2 html输出效果示例

3 excel输出效果示例

【用户期望】

完成算法开发,并且该算法可以识别给定图片,实现图片中表格重建功能并输出excel格式文件。

6.任务要求

【开发说明】

设计算法,完成对表格图片的表格重建。实现方法不限。

【技术要求与指标】

提供可用于推理的docker镜像(模型需要为cpu版本),推理数据目录设置为/data(测试数据由主办方提供,比赛进行阶段不对外公布),算法输出结果放在/result目录,docker镜像大小不超过3G。容器启动后,自动对/data 目录的数据做处理,将结果写到/result目录,主要比较选手的算法表格重建效果(比赛评比阶段将会公示各位选手的算法输出样式图),若参赛选手模型效果相似,将采用推理耗时作为额外的评价指标。

【提交材料】

(1) 项目概要介绍;

(2) 项目简介PPT;

(3) 项目详细方案;

(4) 项目演示视频;

(5)团队自愿提交的其他补充材料。

【任务清单】

(1)完成算法设计与实验;

(2)完成提交材料内容。

【开发工具与数据接口】

(1)开发工具不限;

(2)数据接口待定。

7.其

8.参考信息

9.评分要点

赛题评分要点见附件A 类企业命题初赛统一评分标准。





订阅号