1.命题方向
智能计算
2.题目类别
应用类
3.题目名称
基于AI语音合成的教学声音处理软件
4.背景说明
【整体背景】
随着人工智能技术的发展,语音合成技术(Text-to-Speech, TTS)在多个领域得到了广泛应用,如智能助手、有声阅读、自动播报等。为了推动语音合成技术的进一步发展,本赛题旨在挑战参赛者设计并实现一个高效、自然、准确的TTS系统。
在数字化时代,教育行业正经历着前所未有的技术革新。语音合成(TTS)技术和声音克隆技术作为人工智能领域的重要分支,在多个领域得到了广泛应用,如智能助手、有声阅读、自动播报等。在教育领域也展现出巨大的潜力,能够提供个性化的学习体验,增强教学内容的互动性和可访问性,从而提高学习效率和质量。
【公司背景】
锐捷网络是行业领先的ICT基础设施及行业解决方案提供商,主营业务为网络设备、网络安全产品及云桌面解决方案的研发、设计和销售,作为中国数据通信解决方案领导品牌,已成为中国网络设备三大供应商之一。
目前,锐捷网络拥有8大研发中心,8000余员工,业务范围覆盖90多个国家和地区,服务各行业客户数字化转型。锐捷网络贴近用户的创新成果已广泛应用于政府、运营商、金融、教育、医疗、互联网、能源、交通、商业、制造业等行业信息化建设领域,助力各行业客户实现数字化转型和价值升级。同时,锐捷与各行业头部客户建立了深度合作关系,服务1000多家金融机构、100%的双一流高校、60%的全国百强医院、超200家中国500强企业。
未来,锐捷网络将不断突破创新,助力各行业客户夯实数字经济坚实底座,勇立数字时代潮头。
(锐捷网络[股票代码301165]和母公司星网锐捷[股票代码002396]均为深交所上市公司,星网锐捷为亚洲品牌500强)。
【业务背景】
锐捷始终扎根行业,深入场景进行解决方案创新,充分应用云计算、大数据、 5G、物联网、AI 等新技术为各行业用户提供数字化解决方案。锐捷一直致力于将技术与场景应用充分融合,贴近用户进行产品方案设计和创新,助力各行业用户实现数字化转型和业务价值创新。锐捷的云课堂业务表现突出,紧跟时代步伐,不断创新,利用新技术创造性解决教育教学新型问题,助力教育行业高质量发展。
5.项目说明
【问题说明】
利用AI语音合成和声音克隆技术,结合教育学原理和学习者的需求,创造出能够提高教学效果、增强学习体验或促进教育公平的解决方案,以及考虑技术的可扩展性和跨学科应用潜力。
【用户期望】
提高教学效果:通过灵活的语言风格,个性化的语音讲解,提高学生的学习体验,提高教学效果。
语言学习辅助:帮助语言学习者练习发音和语言节奏,如普通话,外语,特定方言等,可以提供更自然流畅的语音样本进行模仿和学习。
辅助特定教育:对于视障或阅读困难的学生,声音克隆技术可以提供文本到语音的服务,帮助他们更好地获取信息和学习。
促进教育公平:在缺乏教师资源的地区,可以利用声音克隆技术创建虚拟教师,为学生提供标准化的教学内容。
6.任务要求
【开发说明】
设计并实现一个基于语音合成的教学声音处理软件,能够根据输入的文本或语音样本生成自然的语音输出,需展示系统能够模仿特定人的声音特点。系统主要包括以下功能:
(1)声音样本库:可以预设一些标准声音,也可以通过上传音频文件,或现场录制,如录制老师的声音;音频文件和现场录制建议为5s到30s的单独人声。
(2)个性化语音讲解:上传或输入一段文本教学内容,长度在800~2000字,选择声音样本库的声音进行语音讲解;
(3)标准语言输出:根据给定的文本内容,长度在800~2000字,输出普通话、英文等标准发音。扩展性要求,可控制语速、语气和节奏等;
(4)课件制作下载:上传一个小型的教学课件(比如一个PPT),大小在3M~20M,通过选择声音样本库声音,完成有声课件的制作,可下载;
(5)可选功能:声音置换及加字幕功能,导入一段音视频,通过更换声音,实现变声,同步展示字幕。
【技术要求与指标】
(1)发音相似性
说明:系统生成的语音与声音样本之间的相似性;
要求:相似性不低于85%。
(2)自然度(Naturalness)
定义:合成语音的自然程度,包括韵律、语调、停顿等;
要求:MOS(Mean Opinion Score)评分不低于4.0;
基于5分制的主观评分:5分-非常好,4分-好,3分-一般,3分以下-差)。具体参见下表:
级别 |
MOS值 |
评价标准 |
优 |
4.0~5.0 |
很好,听得清楚;延迟小,交流流畅 |
良 |
3.5~4.0 |
稍差,听得清楚;延迟小,交流欠流畅,有点杂音 |
中 |
3.0~3.5 |
还可以,听不太清;有一定延迟,可以交流 |
差 |
<3.0 |
听不懂、听不太清;延迟较大,交流不通畅或需要重复多遍 |
(3)清晰度(Clarity)
说明:合成语音的清晰度和可懂度,即能够清晰理解语音内容的程度;结果介于0到1之间,数值越接近1表示语音信号的可懂度越高,越接近0表示可懂度较低;
要求:清晰度得分不低于0.8。
(4)实时性(Real-time Capability)
定义:系统从接收文本到输出语音的响应时间;
要求:响应时间不超过2秒。
【提交材料】
(1)项目概要介绍;
(2)项目简介 PPT;
(3)项目详细方案;
(4)项目演示视频;
(5)团队自愿提交的其他补充材料。
【任务清单】
(1)完成项目的需求分析和功能设计;
(2)设计算法与关键模块的架构;
(3)编码开发与功能实现;
(4)测试验证主要功能和创新成果;
(5)可选完成:探索更多的应用场景落地,如教学场景数字人。
【开发工具与数据接口】
无限制,自行选择。 可基于开源的大模型和相关算法解题。
7.其他
如有具体的客户案例或经过客户实际场景测试,在不涉及知识产权的情况下,可以提供使用或试用说明文档。
8.参考信息
学生需自行搜索语音训练数据集。
9.评分要点
赛题评分要点见附件一:A 类企业命题初赛统一评分标准。