本届A类赛题可通过以下方式提问与交流:
1、大赛官网团队账号-赛题答疑区提问,组委会定期收集问题提交至企业解答后公布;
2、可前往赛题答疑论坛(PC端点击链接):https://mastergo.com/file/77782156635006?utm_source=fwwb&utm_medium=saitishouce&utm_campaign=&utm_term=&utm_content=提问或交流,企业定期回复。
1.命题方向
智能计算
2.题目类别
计算类
3.题目名称
虚拟化身——2D虚拟人语音驱动算法
4.背景说明
【整体背景】
近年来,元宇宙概念火爆全球,通过虚拟技术创建的虚拟人掀起了一股技术和金融投资热潮。虚拟人为多方面高度拟人化的多技术综合产物,其中,2D虚拟数字人技术相较于3D数字人具有获取成本相对较低、自动化程度低、与真人更为相似的优点。利用文本或语音作为输入对2D虚拟人进行口型和动作的驱动已成为计算机视觉、计算机图形学和虚拟现实中的重要技术。随着深度学习技术的发展,2D虚拟人研究进展稳步,然而,生成与真实拍摄的视频无法区分的照片级真实感的虚拟人仍然非常具有挑战性,这些视频不仅需要包含同步度高的嘴唇运动,而且还需要具有个性化和自然的头部运动和眨眼以及肢体动作等。
2D虚拟人语音驱动算法是为了实现低成本虚拟人驱动和个人数字虚拟人技术的重要研究课题,可以极大地推动元宇宙产业的发展。2D虚拟人语音驱动算法重点在于口型的准确度、人脸的清晰度、肢体动作的自然性。在仅依赖语音特征输入的情况下,驱动固定的虚拟人口型准确地对语音内容进行陈述具有较大的实现和优化难度。
【公司背景】
万兴科技(300624.SZ)成立于2003年,并于2018年登陆A股创业板,是全球领先的新生代数字创意赋能者,致力于成为全世界范围内有特色、有影响力的百年软件老店。
公司面向全球海量新生代互联网用户提供潮流前沿、简单便捷的数字创意软件产品与服务,赋能人们在数字时代与众不同地进行创意表达,帮助每一个新生代创作者将头脑中的灵感变为可见的现实。
万兴科技也是中国政府认定的“国家规划布局内重点软件企业”,连续跻身“德勤高科技高成长亚太区500强”、“福布斯中国最具发展潜力企业”等荣誉榜。
公司正以前瞻的视野推进全球化布局,研发总部位于深圳,并在温哥华、东京、长沙等地设有运营中心,业务范围遍及全球200多个国家和地区。
【业务背景】
万兴科技持续深耕数字创意软件领域,旗下明星产品包括万兴喵影、万兴优转、亿图图示、Filmora、Filmstock、Fotophire等。以AI技术赋能数字创意为目标,让简单的创意无所不在。
5.项目说明
【问题说明】
虚拟数字人指存在于非物理世界中,由计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、交互能力等)的综合产物。本题主要关注于现实世界中人物的2D驱动,即对真实人物的视频进行学习,利用语音输入完成该人物的口型、表情、身体的动作驱动。
本题要求能够在用户提供拍摄的人物说话视频和语音的情况下,获取新的音色和内容的音频时,能够实现该人物完成新音频播报的视频。同时,该视频中人物的口型应基于能够对齐语音内容。
【用户期望】
音频输入后能够完成人物形象的驱动,追求口型准确度和动作自然度,具体要求如下:
(1)虚拟人身体最少应该为半身像,而不能仅为头部和颈部,手部动作不需要与语音内容相关,但能保证手部的自然流畅;
(2)若采用分割嘴部的方案,最终的虚拟人驱动结果中,嘴部周围不应有明显的瑕疵和边界裁剪框;
(3)输出的虚拟人驱动视频中,人物脸部需要尽可能清晰,眼睛能够自然随机完成眨眼动作。同时,虚拟人牙齿部分可不与原始人物视频中完全一致,但应该清晰、完整,不出现牙齿模糊、多排牙齿、牙齿残缺等问题。
参考效果如下:
6.任务要求
【开发说明】
本项目要求参赛者设计技术方案流程,以及完成2D虚拟人语音驱动模型的训练、优化、工程化等工作,最终产生一个支持用户上传虚拟人视频片段和音频后,能够利用新音频生成虚拟人形象驱动视频的可执行程序或部署在服务器的web端体验平台。
相关的工作参考举例:https://www.synthesia.io/
【技术要求与指标】
(1)输入的用户数据:人物形象视频及对应的音频;
(2)输入的用户视频时长限制:<5min;
(3)输出的人物驱动文件:.mp4,.avi等(分辨率应等于或大于512*512);
(4)需要对驱动模型进行轻量化操作,单个人物驱动模型或通用驱动模型大小限制在500MB以下;
(5)需要保证输出视频的清晰度,保证人脸的完整、精细、无明显瑕疵。测试视频和音频由赛题方提供,评价标准分为主观评价和客观指标两部分。主观评价为公司测试小组(5人)从画面清晰度、画面连续性、面部清晰度、口型准确度、牙齿清晰度等五个角度进行打分取平均值;客观指标:SSIM(用于评价画面清晰度)、LMD(口部关键点距离,用于评价口型相似度)。
在此题目中,按照课题要求需要自行完成技术调研、模型训练、优化、后处理(驱动模型轻量化)以及工程部署等工作。具体地,用户输入的训练视频需限制在5min以内,且生成的驱动结果应该至少为半身像,模型文件大小需要限制在500MB以内。
驱动模型大小(单人or通用) |
不超过500MB |
输出的人体模型要求 |
.mp4,.avi等格式 |
效果指标 |
主观评价(画面清晰度、画面连续性、面部清晰度、口型准确度、牙齿清晰度) & SSIM(用于评价画面清晰度)、LMD(口部关键点距离,用于评价口型相似度) |
【提交材料】
(1)项目概要介绍;
(2)项目简介PPT;
(3)项目详细方案;
(4)项目演示视频;
(5)企业要求提交的材料:
①项目简介PPT,包括:项目执行思路介绍;所使用的算法模型、优化、项目工程化过程介绍;算法及模型的优劣势、技术指标达成情况介绍;以及提供测试视频的展示效果,测试视频自选;
②项目详细技术方案文档:详细描述算法实现的技术方案及原理;
③自行拍摄视频的人物驱动效果展示;
④本地化可执行程序或部署在服务器支持试用的web页面:在本地运行一个无需额外部署环境的exe可执行文件, 支持用户上传视频和测试音频输出视频人物的驱动效果。
(6)团队自愿提交的其他补充材料。
【任务清单】
(1)明确业务需求定义,根据定义收集口型对齐数据集;
(2)2D虚拟人驱动技术(如深度学习模型)的调研、设计和训练;
(3)虚拟人模型的后处理(牙齿修复等)及优化(模型轻量化:剪枝、蒸馏等);
(4)虚拟人形象驱动效果评估以及处理效率(模型测试平台、训练数据前处理、视频后处理时间);
(5)模型大小、参数量(Params)和计算量(Flops);
(6)深度学习算法工程化,提交可进行验证安装程序和所有源代码及依赖 (提示:推理框架有openvino、tensorRT、onnx等)。
【开发工具与数据接口】
开发工具:开发工具及平台不限。
7. 其他
无
8. 参考信息
无
9.评分要点
赛题评分要点见附件一:A 类企业命题初赛统一评分标准。