【A12】高性能声纹识别平台【长安计算】
发布时间: 2022-11-24 15:36:11

本届A类赛题可通过以下方式提问与交流:

1、大赛官网团队账号-赛题答疑区提问,组委会定期收集问题提交至企业解答后公布;

2、可前往赛题答疑论坛(PC端点击链接):https://mastergo.com/file/77782156635006?utm_source=fwwb&utm_medium=saitishouce&utm_campaign=&utm_term=&utm_content=提问或交流,企业定期回复。



1.命题方向

系统分析与设计

2.题目类别

算法(模型)类

3.题目名称

高性能声纹识别平台

4.背景说明

【整体背景】

随着人工智能技术的发展,以语音为研究对象,通过语音信号处理和模式识别技术让机器自动识别和理解人类口述语言的语音识别研究取得了辉煌的进步。除了语音文字转换之外,通过声纹特征进行说话人识别,被广泛应用在信息、公共安全、金融、安防、公安司法、国防等领域,已成为语音识别的重要内容。在智能语音分析系统中,让计算机自动完成声纹辨认和关键词检出,对客户的身份信息进行识别,方便地为客户提供友好的个性化服务,针对客户的语音习惯最大限度理解用户意图,提高机器设备人性化水平。

【公司背景】

陕西长安计算科技有限公司是由陕西电子信息集团与深圳市宝德计算机系统有限公司共同出资设立的混合所有制公司,以服务器和PC整机研发、生产、销售和为客户提供云计算综合解决方案为主营业务,致力于成为国内一流的IT产品和解决方案提供商。公司围绕计算产业创新、算力多元化发展大力投入,积极探索“技术+资本+人才+服务”的多维融合模式,致力于打造国产自主可控计算机知名品牌,助力传统行业数字化转型。

【业务背景】

近年来,语音识别技术的应用日益成熟,已经从原本简单的语音文字转换提升到为各类更高级、对业务价值更大的应用,而其中非常重要的一项应用就是语音分析。随着公司客户服务中心不断增加的通话量,与不同类型客户的不断发展接入,现有的语音人工分析已无法满足业务增长的需要,需要引进智能语音分析系统,从用户语音数据中提取声纹特征,快速完成用户身份认证,并通过系统挖掘、分析有价值信息,快捷、简单、方便、准确地对用户画像构建,完成系统自主分析功能。

5. 项目说明

【问题说明】

本题着力于解决通话服务的声纹识别应用需求与目前现有的声纹识别技术能力的不匹配,导致现有的声纹识别技术和模型框架无法在通话服务场景下进行大规模的产业化应用。其核心问题就是通过计算机语音识别技术实现对用户自动识别。完成包括:

(1)针对通话服务数据的低采样率、低码率的问题,进行数据增强,提高识别效果;

(2)针对复杂的语音环境,进行背景噪声的去除,减小采样环境对识别效果的影响;

(3)系统应能自动识别说话人的身份;

(4)系统可以扩展至较大规模声纹库的应用场景。选手可利用传统计算机语音识别方法或基于机器学习/深度学习的方法,通过对输入系统的录音数据进行分析,完成上述功能。

【用户期望】

参赛选手结合业务需求,进行算法模型的开发,用声纹识别技术代替传统人工分析,实现音频分析效果改进,提高用户体验,避免潜在投诉。

6. 任务要求

【开发说明】

需要对设计的应用场景深入的了解和阐述,所开发的算法模型需满足真实的语音质量检测需求。

【技术要求与指标】

能够实现自动语音声纹识别,指标要求:

1)复杂环境下通话语音的声纹识别的准确率达90%以上;

2)能够完成较大规模用户的通话语音声纹识别;

3) 能够对检测结果进行统计与反馈。

一般开发环境以及开发语言不限(可使用Python,深度学习框架可使用PyTorch、TensorFlow等)。开发过程允许使用开源代码,但需要在文档中详细注明,且其许可证需保证商业可用,不能采用商用模块。

【提交材料】

1)项目概要介绍;

2)项目简介 PPT;

3)项目详细方案;

4)项目演示视频;

5)企业要求提交的材料:

①需求分析文档;

②系统设计文档;

③详细的设计方案(包括模型训练方案);

④测试报告;

⑤可实际运行的演示demo程序。

6)团队自愿提交的其他补充材料。

【任务清单】

1)项目立项,确定项目方向和开发方向;

2)确定开发周期,按照计划进行项目开发;

3)按照比赛要求按时提交相应的比赛作品材料。

【开发工具与数据接口】

1)推荐开发语言:Python;

2)推荐开发工具:PyTorch 等。

7.参考信息

PC内外观检测指导书和测试数据集通过网盘链接提供。

8.评分要点

赛题评分要点见附件A 类企业命题初赛统一评分标准。



订阅号