命题方向
智能计算
2.题目类别
应用类
3.题目名称
运用AIGC开源工具,打造文博元宇宙
4.背景说明
【整体背景】
伴随着元宇宙、Web3等技术的发展以及工信部、教育部等五部门联合印发《虚拟现实与行业应用融合发展行动计划(2022—2026 年)》的权威文件,技术面和政策面的利好消息将持续释放中国增强与虚拟现实产业的巨大潜力,5G+文化旅游被列入5G应用重点领域,数字技术赋能之下,我国旅游产业需要数字赋能,XR技术是一种将真实世界信息和虚拟世界信息“无缝”集成的新技术,从而达到增强现实的感官体验。伴随着国民可支配收入的持续增多,数字文化旅游的市场容量不断扩充,需要探索新的体验范式,助力消费者和具体数字文化旅游消费品间的有效匹配。
【公司背景】
中兴通讯是全球领先的综合通信信息解决方案提供商,为全球电信运营商、政企客户和消费者提供创新的技术与产品解决方案。目前主要拥有5G无线、核心网、承载、接入、芯片等领域的核心技术,并做持续的研发投入。中兴通讯在元宇宙领域持续进行技术穿刺和业务探索,未来或将聚焦元宇宙技术赋能,力求做AIGC技术的引领者和推动者。
【业务背景】
中兴通讯作为综合通讯信息解决方案提供商,致力于实现“让沟通与信任无 处不在”的美好未来,坚持以持续技术创新为客户不断创造价值。人,物,场的重建是从物理世界映射到数字世界的关键技术,其中AIGC技术包含了人,物,场的重建,中兴通讯将依托数字星云元宇宙能力引擎ZTE XRExplore和5G-A网络的融合创新,赋能文旅行业的数字化转型,为数字文旅的高质量发展贡献科技力量。
5.项目说明
【问题说明】
(1)深入探讨AIGC工具在文博元宇宙构建中的应用潜力与优势。
(2)分析如何利用AIGC技术生成丰富多样的虚拟场景、文物复制品及互动体验内容,以提升文博元宇宙的沉浸感和教育价值。
(3)AIGC工具概述:介绍AIGC的基本概念、技术原理及在内容生成方面的主要特点。
(4)文博元宇宙概念解析:阐述元宇宙的定义、特征及其在文博领域的应用前景。
(5)AIGC在文博元宇宙中的应用场景:
①虚拟场景生成:利用AIGC技术生成逼真的古代城市、历史遗迹等虚拟场景,为游客提供沉浸式游览体验;
②文物复制品创作:基于AIGC技术,对珍贵文物进行高精度复制,实现文物的数字化保护与展示;
③互动体验设计:通过AIGC生成个性化的互动任务、游戏及教育课程,增强游客在文博元宇宙中的参与感和学习体验。
(6)技术实现路径:探讨AIGC工具在文博元宇宙构建中的具体实现步骤、关键技术及可能面临的挑战。
(7)案例分析:选取国内外成功的文博元宇宙项目,分析其AIGC应用策略、效果及启示。
【用户期望】
(1)深入探讨AIGC工具在文博元宇宙构建中的应用潜力与优势,分析如何利用AIGC技术生成丰富多样的虚拟场景、文物复制品及互动体验内容,以提升文博元宇宙的沉浸感和教育价值。
(2)制作能够应用于文旅行业的讲解数字人,不限于2D和3D形象的数字人,数字人需要具备语音识别。其中2D形象生成指利用大模型根据输入信息生成和编辑人物形象并保存为2D图像的系统应支持文本提示词生成2D形象,文本提示词包括但不限于背景描述、服装描述、发型描述、配饰描述和性别描述以及风格描述,可通过多次提示达成目标,MOS评分达到4以上。应支持基于大模型对生成的2D形象素材进行编辑,包括但不限于更换背景,扩图,宜具备高级编辑功能,如配饰的添加删除,服装的更换。结合题目1和2的要求应用AIGC构建文博场景打造虚实相生的新型文博场景。
6.任务要求
【开发说明】
无
【技术要求与指标】
(1)使用开源工具构建文物模型,其中模型的精度PSNR不低于35DB,SSIM不低于0.9。
(2)其中2D形象生成指利用大模型根据输入信息生成和编辑人物形象并保存为2D图像的系统应支持文本提示词生成2D形象,文本提示词包括但不限于背景描述、服装描述、发型描述、配饰描述和性别描述以及风格描述,可通过多次提示达成目标,MOS评分达到4以上。
MOS评分为主观性评估指标,用户根据听到的声音质量,在李克特量表2中给出一个主观评分评价质量优劣,1最差~5最优,可分为细分维度MOS评分和整体MOS评分。具体评分规则见表。该指标总得分为100,计算公式如下。(AVG1代表细分维度MOS均分,AVG2代表综合MOS均分,AVG3代表多会话MOS均分,F代表总分值100。交互式虚拟人系统中n取值3,wi取值1/3;播报式虚拟人系统中n取值2,wi取值1/2)
得分 |
音频 |
视频 |
整体 |
||||||||
语音语调 |
流畅 度 |
情感 度 |
形象自 然度 |
口型动作逼真度
|
面部表情逼真度
|
肢体动作逼真度
|
形象和 背景融 合度 |
形象 和背 景契 合度 |
形象和音 色契合度 |
音视频契 合度
|
|
5 |
发音标准,吐字清晰,语调正确、自然。
|
表达 流 利 , 无中 断现 象 。
|
情感 饱 满 , 让人 感到 惊喜 生 动 。 |
人物形象十分 自然, 不能区分是否 为虚拟人。
|
口型与真 人发声完 全匹配。
|
表情十分自然,不能区分 是否为虚拟人。
|
动作十分自然,与描述匹配 恰当,不能区分是否为虚拟 人。
|
形象与背景十 分融 洽,不 能区分是否为 合成。
|
形象 和背 景十 分匹 配, 观赏 愉悦。 |
形象符合 音色,人物类型与音色类型吻合(萌 妹子、御姐音等)。 |
音视频完 全匹配, 不能区分 是否为合 成。
|
4 |
发音比较标准,语调比较 正确, 仅有个别错误,不影响整 体效 果。
|
表达 比较 流 利, 中断 现象 较 少, 不影 响整 体效 果。 |
情感 比较 饱 满, 能感 受到 抑扬 顿 挫。
|
人物形象比较 自然, 和真人有细微 区别, 不影响整体效 果。
|
口型比较 匹配,个别口型错误,不影 响整体效 果。
|
表情比较自然,个别细节 表情表达错误,不影响整 体效 果。
|
动作比较自然,个别细节肢 体动作错误(重影、与描述不匹配 等),不影响整体效果。
|
形象与背景比 较融 洽,个 别细节出现留 白或重叠,不影响整 体效 果。 |
形象 与背 景比 较匹 配, 无冲 突。
|
形象比较 符合音色,与真 人接近, 无冲突。
|
音视频比 较匹配, 个别细节 错误(延 迟、提 前),不 易发觉。
|
(3)应支持基于大模型对生成的2D形象素材进行编辑,包括但不限于更换背景,扩图,宜具备高级编辑功能,如配饰的添加删除,服装的更换。
【提交材料】
(1)项目概要介绍;
(2)项目简介 PPT:
①能够正确理解生成式人工智能技术内涵应用到文旅场景,能够正确使用合适的开源工具进行三维物体生成,以及选取对应的AIGC工具进行数字人生成与驱动。生成文物模型;
②AIGC 技术在文旅类行业的商业模式;
③消费者与 AIGC 内容间的交互逻辑或策略。
(3)项目详细方案;
(4)项目演示视频;
(5)团队自愿提交的其他补充资料。
【任务清单】
无
【开发工具与数据接口】
使用开源工具,企业不提供平台以及账号等产品。
7.其他
无
8.参考信息
(3)LiblibAI·哩布哩布AI - 中国领先的AI创作平台
(7)https://www.urania.ai/top-sd-artists
(8)Stable Diffusion 模型在线解析: https://spell.novelai.dev/
9.评分要点
赛题评分要点见附件一:A 类企业命题初赛统一评分标准。
注:部分赛题会提供数据或其他资料,除《赛题手册》中已提供的外,后续如有企业提供均更新在该链接内:http://www.fwwb.org.cn/news/show/535