【A09】基于AI语音合成的教学声音处理软件【锐捷网络】
发布时间: 2024-12-12 16:34:35

1.命题方向

智能计算

2.题目类别

应用类

3.题目名称

基于AI语音合成的教学声音处理软件

4.背景说明

【整体背景】

随着人工智能技术的发展,语音合成技术(Text-to-Speech, TTS)在多个领域得到了广泛应用,如智能助手、有声阅读、自动播报等。为了推动语音合成技术的进一步发展,本赛题旨在挑战参赛者设计并实现一个高效、自然、准确的TTS系统。

在数字化时代,教育行业正经历着前所未有的技术革新。语音合成(TTS)技术和声音克隆技术作为人工智能领域的重要分支,在多个领域得到了广泛应用,如智能助手、有声阅读、自动播报等。在教育领域也展现出巨大的潜力,能够提供个性化的学习体验,增强教学内容的互动性和可访问性,从而提高学习效率和质量。

【公司背景】

锐捷网络是行业领先的ICT基础设施及行业解决方案提供商,主营业务为网络设备、网络安全产品及云桌面解决方案的研发、设计和销售,作为中国数据通信解决方案领导品牌,已成为中国网络设备三大供应商之一。

目前,锐捷网络拥有8大研发中心,8000余员工,业务范围覆盖90多个国家和地区,服务各行业客户数字化转型。锐捷网络贴近用户的创新成果已广泛应用于政府、运营商、金融、教育、医疗、互联网、能源、交通、商业、制造业等行业信息化建设领域,助力各行业客户实现数字化转型和价值升级。同时,锐捷与各行业头部客户建立了深度合作关系,服务1000多家金融机构、100%的双一流高校、60%的全国百强医院、超200家中国500强企业。

未来,锐捷网络将不断突破创新,助力各行业客户夯实数字经济坚实底座,勇立数字时代潮头。

(锐捷网络[股票代码301165]和母公司星网锐捷[股票代码002396]均为深交所上市公司,星网锐捷为亚洲品牌500强)。

【业务背景】

锐捷始终扎根行业,深入场景进行解决方案创新,充分应用云计算、大数据、 5G、物联网、AI 等新技术为各行业用户提供数字化解决方案。锐捷一直致力于将技术与场景应用充分融合,贴近用户进行产品方案设计和创新,助力各行业用户实现数字化转型和业务价值创新。锐捷的云课堂业务表现突出,紧跟时代步伐,不断创新,利用新技术创造性解决教育教学新型问题,助力教育行业高质量发展。

5.项目说明

【问题说明】

利用AI语音合成和声音克隆技术,结合教育学原理和学习者的需求,创造出能够提高教学效果、增强学习体验或促进教育公平的解决方案,以及考虑技术的可扩展性和跨学科应用潜力。

【用户期望】

提高教学效果:通过灵活的语言风格,个性化的语音讲解,提高学生的学习体验,提高教学效果。

语言学习辅助:帮助语言学习者练习发音和语言节奏,如普通话,外语,特定方言等,可以提供更自然流畅的语音样本进行模仿和学习。

辅助特定教育:对于视障或阅读困难的学生,声音克隆技术可以提供文本到语音的服务,帮助他们更好地获取信息和学习。

促进教育公平:在缺乏教师资源的地区,可以利用声音克隆技术创建虚拟教师,为学生提供标准化的教学内容。

6.任务要求

【开发说明】

设计并实现一个基于语音合成的教学声音处理软件,能够根据输入的文本或语音样本生成自然的语音输出,需展示系统能够模仿特定人的声音特点。系统主要包括以下功能:

1)声音样本库:可以预设一些标准声音,也可以通过上传音频文件,或现场录制,如录制老师的声音;音频文件和现场录制建议为5s到30s的单独人声。

2)个性化语音讲解:上传或输入一段文本教学内容,长度在800~2000字,选择声音样本库的声音进行语音讲解;

3)标准语言输出:根据给定的文本内容,长度在800~2000字,输出普通话、英文等标准发音。扩展性要求,可控制语速、语气和节奏等;

4)课件制作下载:上传一个小型的教学课件(比如一个PPT),大小在3M~20M,通过选择声音样本库声音,完成有声课件的制作,可下载;

5)可选功能:声音置换及加字幕功能,导入一段音视频,通过更换声音,实现变声,同步展示字幕。

【技术要求与指标】

1)发音相似性

说明:系统生成的语音与声音样本之间的相似性;

要求:相似性不低于85%。

2)自然度(Naturalness)

定义:合成语音的自然程度,包括韵律、语调、停顿等;

要求:MOS(Mean Opinion Score)评分不低于4.0;

基于5分制的主观评分:5分-非常好,4分-好,3分-一般,3分以下-差)。具体参见下表:

级别

MOS值

评价标准

4.0~5.0

很好,听得清楚;延迟小,交流流畅

3.5~4.0

稍差,听得清楚;延迟小,交流欠流畅,有点杂音

3.0~3.5

还可以,听不太清;有一定延迟,可以交流

<3.0

听不懂、听不太清;延迟较大,交流不通畅或需要重复多遍


3)清晰度(Clarity)

说明:合成语音的清晰度和可懂度,即能够清晰理解语音内容的程度;结果介于0到1之间,数值越接近1表示语音信号的可懂度越高,越接近0表示可懂度较低;

要求:清晰度得分不低于0.8。

4)实时性(Real-time Capability)

定义:系统从接收文本到输出语音的响应时间;

要求:响应时间不超过2秒。

【提交材料】

1)项目概要介绍;

2)项目简介 PPT;

3)项目详细方案;

4)项目演示视频;

5)团队自愿提交的其他补充材料。

【任务清单】

1)完成项目的需求分析和功能设计;

2)设计算法与关键模块的架构;

3)编码开发与功能实现;

4)测试验证主要功能和创新成果;

5)可选完成:探索更多的应用场景落地,如教学场景数字人。

【开发工具与数据接口】

无限制,自行选择。 可基于开源的大模型和相关算法解题。

7.其他

如有具体的客户案例或经过客户实际场景测试,在不涉及知识产权的情况下,可以提供使用或试用说明文档。

8.参考信息

学生需自行搜索语音训练数据集。

9.评分要点

赛题评分要点见附件一:A 类企业命题初赛统一评分标准。

订阅号