大学生服务外包创新创业大赛--【A13】歌声转换算法【万兴科技】

首页>>本届赛题

【A13】歌声转换算法【万兴科技】

发布时间： 2023-12-27 14:16:06

1.命题方向

智能计算

2.题目类别

计算类

3.题目名称

歌声转换算法

4.背景说明

【整体背景】

随着深度学习的发展, 近些年来音频算法在智能医疗、语音识别、语音合成、声源定位等领域的应用非常火热,其效能和速度也不断得到精进。从过去的云端服务, 逐步脱离并发展到PC端边缘运算, 到这几年再往移动端运算发展。尽管硬件的运算能力越来越强大, 但是模型轻量化仍是算法设计所追求的核心之一。唯有如此，AI算法才可以随时随地调用，发挥它们强大的作用。

AIGC席卷下，语音合成，语音转换一直是音频技术的关键核心技术。语音合成的关键是学会目标人的音色，并迁移到源目标上。随着元宇宙的爆火，虚拟人逐渐走到了荧幕前，语音合成也从音色转换升级至目标人的音色克隆。即给定足够时长的目标人语音，即可通过文本的方式生成用户需要的音频片段。然而仅仅让虚拟人说话是不够的，歌声是一个很好表现自己的方式，歌声转唱就是典型的应用案例。随着“AI孙燕姿”的成功出圈，让用户可以链接粉丝和偶像产生互动感，具有很强娱乐性，除此之外，歌声转唱可以为每个人提供个性化的音乐体验，用户通过录制简单的一段说话音频，就可以定制属于自己独特音色的歌手，让不擅长唱歌的用户完成歌曲的演唱。这就是:Singing Voice Conversion。

歌声转换（Singing voice conversion）旨在保证歌唱内容的同时，将音色从source speaker转换到 target speaker，这将为音乐行业带来革命性的变化。歌声转唱具有很强的娱乐性，可以使目标歌手无需重新录制歌曲，不仅能够节省大量的时间和金钱，还能为艺术创作开辟新的艺术道路，同时可以让每一个用户都能实现自己独特的音色唱歌，商业前景和市场巨大。

【公司背景】

万兴科技（300624.SZ）成立于2003年，并于2018年登陆A股创业板，是全球领先的新生代数字创意赋能者，致力于成为全世界范围内有特色、有影响力的百年软件老店。

公司面向全球海量新生代互联网用户提供潮流前沿、简单便捷的数字创意软件产品与服务，赋能人们在数字时代与众不同地进行创意表达，帮助每一个新生代创作者将头脑中的灵感变为可见的现实。

万兴科技也是中国政府认定的“国家规划布局内重点软件企业”，连续跻身“德勤高科技高成长亚太区500强”、“福布斯中国最具发展潜力企业”等荣誉榜。公司正以前瞻的视野推进全球化布局，研发总部位于深圳，并在温哥华、东京、长沙等地设有运营中心，业务范围遍及全球200多个国家和地区。

【业务背景】

万兴科技持续深耕数字创意软件领域，旗下明星产品包括万兴喵影、万兴优转、亿图图示、Filmora、Filmstock、Fotophire等。以AI技术赋能数字创意为目标，让简单的创意无所不在。

5.项目说明

【问题说明】

本题着力于解决歌唱声音转换问题。歌唱声音转换可以为每一个人搭建歌唱数据集，可以学习目标人音色，使用音频相关深度算法和模型框架，完成歌曲中的音色替换。

本项目要求能够设计一个在不使用GPU的环境下运行, 在精细度、速度和模型大小上取得平衡的最佳化的算法模型。

此外，本项目要求实施者自行以收集开源数据或自主建立数据的方式收集数据、建立音频多人声分离算法模型。并完成模型训练、优化、工程化（python或C++皆可）等工作，最终产出一个可执行程序，针对5个目标音色进行歌唱声音转换。

【用户期望】

将目标音色迁移到想唱的歌曲上，具体要求如下：输入目标人声，选定需要转唱的歌曲，使用目标人音色替换原始人音色，并保证音频的质量不会发生太大的降低，需要保证替换音色后的音频在自然度和相似性上可以得到保证，最后将生成的歌曲和伴奏整合，输出转唱的歌曲。可以使用以下链接来测试期望效果的客观指标：https://github.com/gabrielmittag/NISQA

6.任务要求

【开发说明】

在此项目中，按照课题要求自行进行数据采集和数据清洗，用于训练的音频数量自定，建立合适的网络模型框架进行训练，针对歌唱声音转换效果和性能进行参数调整、模型优化；提供PC端可执行程序入口，对本次提供的5个目标音色和2首示例歌曲进行歌唱声音转换的效果呈现。

【技术要求与指标】

模型大小

不超过400MB，越小越好，需要注明模型精度格式(FP32,FP16,INT8)。

算法性能指标

在interl i7 CPU 处理一个时长5分钟的音频，时间不超过3分钟。

效果指标

（1）主观评价MOS：从歌曲的自然度和相似性方面打分，取平均值。

（2）客观评价（详细计算过程可参考对应指标的原始论文）：

STOI：

计算步骤：

①STFT（对音频做短时傅里叶变换）；
②1/3倍频分析；
③归一化和裁剪；
④计算干净语音和带估计语音频谱间的线性相关系数，并统计均值。

PESQ：

计算步骤：直接试用使用python的pesq库进行得分计算。

【提交材料】

（1）项目概要介绍;

（2）项目简介PPT;

（3）项目详细方案;

（4）项目演示视频;

（5）企业要求提交的材料：

①项目简介PPT中除大赛统一要求外，需包括：项目执行思路介绍；所使用的算法模型、优化、项目工程化过程介绍；算法及模型的优劣势、技术指标达成情况介绍；对5个目标音色进行多人声分离的结果展示等；

②项目详细技术方案文档：详细描述算法实现的技术方案及原理；

③本地化可执行程序：在本地运行一个无需额外部署环境的exe可执行文件，向可执行文件中输入一个歌曲，和一个目标音色，程序自动输出带有该目标音色的歌曲。

（6）团队自愿提交的其他补充材料。

【任务清单】

（1）明确业务需求定义，根据定义收集、筛选、清洗出合适的视频数据集；

（2）深度学习模型调研、设计和训练；

（3）模型优化改进（模型效果改进或模型压缩加速等）；

（4）模型的效果评估以及处理效率（模型测试平台、音频前处理、音频后处理以及模型前向推理时间）；

（5）模型大小、参数量（Params）和计算量（Flops）；

（6）深度学习算法工程化，提交可进行验证的包含全部依赖的python或C++例程(提示:推理框架有openvino、ncnn、tvm、mnn、onnx等）。

【开发工具与数据接口】

开发工具：深度学习框架建议使用pytorch1.8.1及以上版本，C++程序建议使用Visual Studio 2017及以上版本。

7. 其他

无

8.参考信息

参考论文:

（1）Xue H, Wang X, Zhang Y, et al. Learn2sing 2.0: Diffusion and mutual information-based target speaker svs by learning from singing teacher[J]. arXiv preprint arXiv:2203.16408, 2022.

（2）Liu S, Cao Y, Su D, et al. Diffsvc: A diffusion probabilistic model for singing voice conversion[C]//2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2021: 741-748.

（3）倪欣,任佳.基于高分辨率网络和自注意力机制的歌声分离算法[J].浙江理工大学学报, 2022(003):047.

参考博客：

https://zhuanlan.zhihu.com/p/631685001

https://zhuanlan.zhihu.com/p/589891467

https://www.cnblogs.com/Edison-zzc/p/17568531.html

9.评分要点

赛题评分要点见附件一：A 类企业命题初赛统一评分标准。

除此之外，企业还重点关注以下内容：

内容
算法创新	算法创新描述详细、清晰，不限于数据预处理方法、模型改进、损失函数设计、优化器设计、主体边缘后处理以及模型加速等技术的创新。
实施分案	整个项目的实施进度安排合理，在模型改进和模型部署等阶段工作创新合理清晰，突出算法解决的难点；算法调研、训练、优化、工程化落地周期安排恰当。
算法实现与交付	算法设计方案可行性高，算法的性能和效果与技术指标相匹配，项目完成度好。
项目展示	提交文档完整性、结构清晰合理、逻辑顺畅、文笔精炼。

分赛区