大学生服务外包创新创业大赛--【A23】面向联邦学习数据流交互任务的隐私计算系统【华鲲振宇】

首页>>本届赛题

【A23】面向联邦学习数据流交互任务的隐私计算系统【华鲲振宇】

发布时间： 2023-12-27 14:38:03

1.命题方向

智能计算

2.题目类别

应用类

3.题目名称

面向联邦学习数据流交互任务的隐私计算系统

4.背景说明

【整体背景】

随着人工智能和大数据技术的迅速发展，数据的价值日益凸显。然而，许多数据涉及个人隐私，例如医疗记录、金融交易等。为了保护个人隐私，同时又能够充分利用这些敏感数据进行机器学习和数据分析，隐私计算系统应运而生。

隐私计算系统是一种能够在保护数据隐私的同时，进行安全计算和数据共享的技术解决方案。它提供了一种方式，使得不同组织或个体可以在不泄露原始数据的情况下，共同进行数据分析和模型训练。其中，面向联邦学习数据流交互任务的隐私计算系统在当前市场需求中具有重要意义。

面向联邦学习数据流交互任务的隐私计算系统不仅满足了市场对数据隐私保护和联邦学习的需求，也符合思想政治的要求。它体现了信息安全和隐私保护原则，促进了数据共享和合作，同时具备教育意义，培养了学生的社会责任感和创新能力。这种平台的发展和应用，有助于推动科技与社会主义核心价值观的融合，推进社会主义现代化建设。

【公司背景】

四川华鲲振宇智能科技有限责任公司是全国及四川省内鲲鹏硬件研制及产业化领军企业、鲲鹏计算产业联盟副理事长单位。公司拥有专业的研发能力、强大的集成能力、成熟的实施能力、完善的服务体系。公司核心研发主管均来自前华为存储产品线和计算产品线10余年工作经验人员，通过华鲲鲲鹏 2.0 和昇腾开放授权，已独立设计、开发、维护基于鲲鹏 920 的国产天宫数据中心服务器、边缘网关服务器、国产天宫 PC。公司在绵阳拥有7万平米的服务器和PC机生产产线基地。年产可达70万台台式PC机、20万台服务器产品的生产基地。拥有智能制造行业的“标杆”产线，实现智能感知、精准控制、自动测试、灵活配置等工业4.0要求。获“2020 全球工业互联网双创大赛”等荣誉奖项。

近年来，华鲲振宇以市场为导向，强化技术创新，夯实内部管理，积极培育集成电路设计、软件设计、工业设计、工程技术、变频技术和可靠性技术等核心技术能力，构建消费类电子技术创新平台，并大力实施智能化战略，推进产业结构调整，不断提升企业综合竞争能力。

【业务背景】

华鲲振宇公司主要业务项目包括计算机软硬件及辅助设备批发、计算机软硬件及辅助设备零售，始终扎根行业，深入场景进行解决方案创新，充分应用边缘计算、云计算、区块链、物联网、AI 等新技术为各行业用户提供安全、隐私性、数字化的解决方案。贴近用户的创新成果已广泛应用于政府、运营商、金融、教育、医疗、互联网、能源、交通、商业、制造业等行业和企业信息化建设领域。华鲲振宇一直致力于将隐私计算技术与场景应用充分融合，贴近用户进行产品方案设计和创新，助力各行业用户实现数字化转型和业务价值创新，随着用户隐私问题不断被强调、隐私泄露带来的风险也越来越大，激发了一个数千亿的新市场，隐私计算时代需要人工智能、云计算、物联网、大数据等信息技术赋能，有效推进隐私计算落地和提升用户隐私保护能力。

5.项目说明

【问题说明】

面向联邦学习数据流交互任务的隐私计算系统旨在解决数据隐私保护、跨组织数据合作、模型训练效果和性能优化以及法规合规等关键问题。该系统通过提供安全的数据传输和存储机制，保护敏感数据的隐私；同时实现跨组织的数据流交互和协作，使各方能够共同训练模型并受益；通过协调和优化联邦学习过程，提高模型的准确性和性能；并符合相关法规合规要求，提供透明度和可验证性。总之，该系统为用户提供了安全、高效、合规的数据流交互任务的隐私计算环境，助力数字化转型和业务创新。

【用户期望】

面向联邦学习数据流交互任务的隐私计算系统不仅满足了市场对数据隐私保护和联邦学习的需求，也符合思想政治的要求。隐私计算的实现可采用如下系统赋能：

面向横向/纵向联邦学习的用户隐私保护系统：结合神经网络、深度学习、横向联邦学习、加密技术，实现用户信息的隐私性，保证在面对常见的攻击（成员推理攻击、中间人攻击）时保持鲁棒性，可基于开源的或第三方系统。

6.任务要求

【开发说明】

系统需要充分考虑可扩展性和可移植性，便于部署和使用。面向联邦学习的用户隐私保护系统有以下需求：

（1）数据隐私保护需求：确保用户的敏感数据在交互和处理过程中得到有效的保护，采取加密、隐私保护算法等技术手段，防止数据泄露和滥用；

（2）跨组织数据合作需求：实现安全可信的跨组织数据共享和协作，确保数据的机密性、完整性和可用性，同时提供安全的数据传输和存储机制；

（3）模型效果和性能需求：优化联邦学习过程，提高模型的准确性、泛化能力和性能，解决数据不平衡、模型融合和参数更新等问题，以提升模型训练效果；

（4）用户友好性需求：提供简化复杂性的用户界面和工具，使用户能够轻松使用平台进行数据交互和模型训练，提高用户的工作效率和体验；

（5）安全性需求：确保平台本身的安全性，包括防止恶意攻击、数据泄露等安全风险，采取安全措施和技术手段保护平台和用户数据的安全。

【技术要求与指标】

开发的程序包括但不限于Web网站、PC端软件、嵌入式应用程序，可运行在常规算力的电脑端（如：i5x86处理器，4G内存，40G磁盘），可基于开源的或第三方商业AI平台，也可以采用自己创新的算法。具体要求指标如下：

①参赛者需要实现基本的联邦学习系统，支持多方数据流通信即可；

②参赛者可以选择多种现有的联邦学习算法进行实现；也可以自主设计用于一类任务的创新性联邦学习算法，例如分类任务或者回归任务等；

③参赛者可以选择实现多种现有的加密技术包括常见的多方安全计算、同态加密、差分隐私等；也可以自主创新设计一种可以应用于联邦学习的加密方案;

④参赛者实现差分隐私加密技术时，最终模型准确率因为加密技术而降低不超过1%，同时需要保证敌手在多项式时间内不能还原数据；

⑤系统需要支持防御常见的攻击，例如成员推理攻击、梯度泄露攻击、中间人攻击等；

⑥系统在训练神经网络模型时需要大于1000轮通信，训练样本数量不小于10000。

【提交材料】

（1）项目概要介绍;

（2）项目简介PPT;

（3）项目详细方案;

（4）项目演示视频;

（5）企业要求提交的材料：

①关键模块的概要设计和创新要点说明文档；

②可运行的 Demo 实现程序；

③具体模块设计，代码实现帮助文档；

（6）团队自愿提交的其他补充材料，例如源代码。

【任务清单】

（1）调研隐私保护政策与现状；

（2）完成所选系统关键模块的需求分析；

（3）设计算法与关键模块的架构；

（4）编码开发与功能实现；

（5）实现基本的联邦学习数据交互；

（6）实现多机通信，进行分布式联邦学习；可选择自主创新设计一种联邦学习算法，或者实现多种已有的联邦学习算法；

（7）实现常见的加密技术，例如多方安全计算、同态加密、差分隐私等；或者自主创新设计一种加密方案；

（8）支持用户选择训练环境、上传训练脚本；

（9）最终形成可应用的原型系统；

（10）测试验证主要功能和创新成果；

（11）探索应用场景落地。

【开发工具与数据接口】

开发工具及开发平台不限，可以借助开源工具，应该支持常见的深度学习框架，例如pytorch、Tensorflow。业务流程设计合理，程序可正常运行，不限制运行在具体的硬件平台和型号，有技术说明即可，不需要做具体的接口对接集成调试与验证。

7.其他

如果有具体的客户案例或经过客户实际场景测试，在不涉及知识产权的情况下，可以提供使用或试用说明文档。

8.参考信息

无

9.评分要点

赛题评分要点见附件一：A 类企业命题初赛统一评分标准。

分赛区