【A23】基于大语言模型的文档理解与多源数据融合系统【金陵科技学院】
发布时间: 2026-02-12 16:48:46

《A类赛题手册》下载地址:https://www.fwwb.org.cn/news/show/598

1.命题方向

企业服务+智能计算

2.题目类别

应用类

3.题目名称

基于大语言模型的文档理解与多源数据融合系统

4.背景说明

【整体背景】

当前,全球已全面进入以数据驱动为核心的数字经济时代,信息作为关键生产要素,其价值日益凸显。各国纷纷将大数据、人工智能等新一代信息技术提升至国家战略层面,我国亦在《“十四五”数字经济发展规划》中明确提出,要充分发挥数据要素作用,推动产业数字化转型,提升数据资源的开发利用水平。特别是在服务业、制造业、政务服务等领域,政策鼓励利用智能技术实现信息处理的自动化、精准化与融合化,以提高运营效率、降低人力成本、增强决策科学性,进而推动经济高质量发展与产业体系现代化。

在经济实践层面,企业日常运营中积累了大量非结构化文本数据,如合同文档、业务报告、客户反馈、技术资料等,这些数据往往格式多样、内容分散、信息冗余,传统人工处理方式效率低、耗时长、易出错,难以适应快速变化的市场需求与业务节奏。如何从海量、多源、异构的文本中自动提取有效信息,并将其转化为结构化、可关联、可分析的数据资产,已成为企业提升竞争力、实现精细化运营的关键课题。通过引入人工智能技术实现文本信息的智能提取,并与文档型数据库进行深度融合与联动管理,不仅能实现信息的高效入库、动态更新与跨文档关联查询,还可支撑自动填表、智能问答、知识图谱构建、业务预警等高级应用场景,为企业创造显著的效率提升与业务价值,符合当前产业对数据智能化的迫切需求。

【单位背景】

金陵科技学院是一所位于江苏省南京市的公办全日制普通本科院校,由原金陵职业大学和南京市农业专科学校于2002年合并筹建,2005年正式成立,现为教育部应用科技大学改革试点战略研究单位、中国应用技术大学(学院)联盟创始单位及长三角地区应用型本科高校联盟主席单位。学校于2021年获批硕士学位授予单位,2025年成为江苏省博士学位授予立项建设单位,秉承“聚焦特色新兴,聚力服务南京”的发展战略,致力于培养高素质应用型人才,其江宁校区主校区是学校发展的核心区域

金陵科技学院软件工程学院是学校为积极服务国家软件产业发展战略,特别是南京市“互联网+”及软件产业规划而设立的核心工科学院,自2014年成立以来便以培养高素质应用型软件工程人才为使命。学院坐落于学校江宁校区,其核心专业“软件工程”不仅是国家级一流本科专业建设点,更通过了国际实质等效的工程教育专业认证,标志着其人才培养质量达到国际标准。学院是学校电子信息专业硕士学位点的牵头建设单位,拥有从本科到硕士的完整人才培养体系。学院师资力量雄厚,专任教师中拥有博士学位的比例超过70%,其中包括省级优秀教学团队,并依托江苏省信息分析工程研究中心等多个省级科研平台开展教学与科研工作。

学院在人才培养上坚持“需求导向、能力为本”的原则,构建了“一主导两结合三层次”的创新创业能力培养体系,与南京软件研究院等产业机构建立了深度合作关系,被认定为“南京市软件人才培养创新基地”。学院建有包括21个专业实验室在内的先进实验教学中心,设备总值超过2700万元,为学生提供了坚实的实践平台。学生在“蓝桥杯”全国软件和信息技术专业人才大赛等高水平学科竞赛中屡获国家级奖项,毕业生平均月薪在学校各专业中长期名列前茅,就业质量与社会声誉卓著。学院的整体发展紧密围绕学校“聚焦特色新兴,聚力服务南京”的战略,致力于成为区域软件产业创新人才培养和技术服务的重要基地。

【业务背景】

金陵科技学院长期致力于集聚创新资源、服务师生创业,推动区域经济与产学研高效整合,坚持“统筹规划、以人为本、市场推动、软件特色”的指导方针,充分利用云计算、大数据、 5G、物联网、AI等新技术为各行业用户提供数字化解决方案。为响应数字化转型趋势,我院聚焦于运用人工智能、机器人流程自动化等前沿技术,致力于解决企事业单位在自动化办公、智能客服、数据资产管理与档案数字化等领域的效率与智能化痛点,助力合作伙伴提升运营效能、挖掘数据价值

5.项目说明

【问题说明】

在大多数日常办公及文本处理工作中,工作人员普遍面临一项耗时且效率低下的核心挑战:需要从大量格式不一、结构松散的无序文档资料中,人工阅读、理解并提取关键信息,再手动整理汇总到Excel表格或数据库中。这一过程不仅重复性高、操作繁琐,容易因疲劳导致疏漏和错误,而且严重挤占了本应用于创造性思考或核心业务工作的时间与精力,成为制约工作效率提升的瓶颈。因此,亟需一种智能化的解决方案,能够自动理解、提取并结构化这些非标准化的文本内容,从而将人力从这种低价值的重复劳动中解放出来。

【用户期望】

用户在真实办公场景下面临着从非结构化文本到结构化数据的艰巨转化挑战,其核心诉求是通过引入具有深度语义理解与自主决策能力的人工智能代理,彻底重塑这一传统工作流。用户的具体希望可归纳如下:

1)智能化应用:需要该系统足够智能,且有合理的工具使用引导,用户在初步接触该系统后便可轻松使用该系统完成预定工作。

2)文本信息自动化识别系统:要求该系统可以智能读取大量文本文档,对文本内容进行深度理解,自动提取文本关键内容及用户需求内容,以及在用户需求下完成对提取信息的存储,并确保信息的保真度与入库的规范性,在此基础上充分体现智能化、自动化。

3)智能信息整合系统:用户希望办公系统可以根据提供的word和excel表格智能填写相关数据,能够根据用户要求自动生成具备直接业务应用价值的、格式严谨的汇总表格。

6.任务要求

【开发说明】

算法或程序需要面向复杂的具体场景(校园、企业等)应用及关键功能,要充分考虑目标场景的限制和特点,程序应便于部署和使用。不限制第三方 AI 平台或自主创新的智能算法。

本程序必须包含以下三个关键模块:

(1)文档智能操作交互模块:基于自然语言处理与文档结构理解技术,能够将用户对文档的编辑、排版、格式调整、内容提取等操作需求,通过自然语言指令进行解析与转化,自动执行相应操作。

(2)非结构化文档信息提取模块:基于桌面端、Web网站或第三方平台部署,可以自动识别用户导入非结构化文档,然后利用人工智能或其他方式提取文件文本关键信息、实体数据或用户指定内容,进行数据库存储操作。充分实现功能,且不存在数据识别误差。

(3)表格自定义数据填写模块:利用脚本语句或人工智能等操作,在用户提供的表格和非结构化数据后,从非结构化数据中自动搜索相关信息并进行表格填写。

【技术要求与指标】

开发的程序包括且不限于 H5 小程序、原生 App、Web 网站、PC 端软件等,系统可基于开源或第三方商业 AI 平台构建,也可采用自研创新算法。系统可以准确识别数据类型并在多种数据类型的情况下稳定运行,且信息提取不得有过大误差,准确率需高于80%。训练与验证样本均经过人工标注与多轮审核以保证质量。智能识别分类模块提供 API 接口,支持异步调用。

【提交材料】

1)项目概要介绍;

2)项目简介 PPT;

3)项目详细方案;

4)项目演示视频;

5)企业要求提交的材料:

①如运用了人工智能技术训练素材,提供详细的素材介绍与来源说明;

②关键模块的概要设计和创新要点(不超过 3 个)说明文档;

③可运行的 Demo 实现程序;

6)团队自愿提交的其他补充材料。

【任务清单】

1)调研真实办公场景现状;

2)完成所选系统关键模块的需求分析;

3)设计算法与关键模块的架构;

4)编码开发与功能实现;

5)测试验证主要功能和创新成果;

6)探索应用场景落地。

【开发工具与数据接口】

开发工具及开发平台不限,可以借助开源工具。业务流程设计合理,程序可正常运行,不限制运行在具体的硬件平台和型号,数据与功能 API,有技术说明即可,不需要做具体的接口对接集成调试与验证。

【评价方法】

比赛方提供测试文档样本集供参赛方测试系统,测试文档样本集包括:

l 5个不小于500KB的docx格式文档

l 3个不小于15KB的md格式文档

l 5个不小于500KB的xlsx格式文档

l 3个不小于15KB的txt文档

先将测试文档样本集中所有文档一起上传系统,再分别上传5个模版表格文件(word或excel),模版表格在比赛时由比赛方提供,如图1表格示例所示。

1 表格示例

每上传一个表格文件运行一次系统,由系统根据测试文档样本集中的数据自动填写表格,完成填写后由比赛方记录响应时间。比赛方将填写后的表格与样例表格进行对比,并计算出准确率。每次填写表格的准确率至少为80%,每个文档的响应时间至多为90秒。当5个表格均填写完成后,计算平均准确率和平均响应时间。若两个系统的平均准确率差距2%以上,准确率越高系统越好;若平均准确率差距小于2%,则结合响应时间综合对系统进行评价。

7.其他

如有具体的客户案例或经过客户实际场景测试,在不涉及任何知识产权问题并确保完全脱敏的前提下,可以提供使用或试用说明文档作为项目可行性的辅助说明。

8.参考信息

鼓励参赛团队关注并合理利用国内外主流的大型语言模型开放API、优秀的开源自然语言处理工具库以及各类公开的文档数据集,作为技术实现的参考与起点,但更鼓励在此基础上进行符合实际场景的创新性改造与优化。

9.评分要点

赛题评分要点见附件一:A类企业命题初赛统一评分标准

订阅号