【A10】金融科技服务平台企业数据的无监督分类系统【浪潮】
发布时间: 2019-11-13 15:36:14

1. 命题方向

智能计算

2. 题目类别

应用类

3. 题目名称

金融科技服务平台企业数据的无监督分类系统

4. 背景说明

【整体背景】

机器学习算法根据训练的学习方式可以划分为监督学习、无监督学习、半监督学习以及强化学习,监督学习中当预测的输出变量属于一系列类别时则为分类,预测的输出变量是实数时则属于回归;无监督学习则使用无标记的训练数据,聚类方法为无监督学习的典型方法。金融科技为机器学习、大数据、人工智能等技术在金融场景领域中的应用,金融科技的应用克服了传统金融信贷场景审核流程长、放贷慢的弊端,应用机器学习方法自动评估小微企业信用水平、企业还款能力等是金融科技在金融场景中的重要应用之一。金融场景中企业这一信贷主体的数据覆盖互联网、政府、线上应用等来源的方方面面,数据量大,来源广泛、涉及企业的维度丰富,在分析企业还款能力、信用水平过程中面临巨大的挑战。本赛题金融科技服务平台企业数据无监督分类分析的目的是为了构建企业画像形成每个企业的明显标签,本赛题题旨在寻找一种有效的无监督分类方法,能够对企业主体进行快速准确的分类,降低人工成本及出错率,并能够形成企业群体的有效簇划分,为后期针对企业进行客群分析、精准获客等应用提供基础。

【公司背景】

浪潮卓数大数据产业发展有限公司作为浪潮集团旗下的大数据板块,致力于

成为数据资源提供商、数据资产运营商和数据交易服务商,以大数据时代的“数商”为发展目标,促进数据社会化。

【业务背景】

“一贷通”是公司“一平七通”发展战略中的“一通”之一,“一贷通”的业务目标旨在积极采用大数据、机器学习、人工智能等先进的金融科技技术,汇聚各个政府委办局、区域内金融机构、互联网等多渠道的基础数据,搭建一涵盖各金融业务数据的多功能的数字金融科技服务平台,形成科学、客观、可靠的中小微企业信用评分体系,着力解决中小企业“融资难、融资贵”的问题。企业多源数据、多维度的深入挖掘是为企业构建企业画像、建立企业信用评分体系的前提基础,从企业的企业背景、经营能力、经营风险、发展状况等层面对企业进行群体划分,企业划分结果中的每一个企业簇群体都要形成较明显的标签标示,为后续企业画像构建、企业信用评分体系构建提供辅助。

5. 项目说明

【问题说明】

以某一地市的小微企业为研究对象,以该地市小微企业覆盖企业背景、企业稳定性、企业经营能力、企业经营风险、司法风险、信用风险等多个方面的数据作为数据来源。建立一种无监督的分类模型,利用小微企业包含的特征维度信息,对小微企业进行簇划分,划分的每一个簇都有有效的特征或者标签去描述该簇的特征,每个簇之间形成较为明显的划分界限,即最终形成企业合理的划分。

【用户期望】

追求企业无标识脱敏数据的有效划分及每个簇划分标签的合理有效且可区分:

(1)针对无标识的企业数据进行数据预处理,特征筛选,特征提取等形成有效的训练样例及特征;

(2)针对提取的有效特征选择合适的无监督分类方法对小微企业数据进行分类,进行模型训练,模型要求实现小微企业群体的有效划分;

(3)针对小微企业划分后各簇提取显著标签进行该簇的描述,要求标签合理且有效;

(4)企业无监督分类要求最终以完整系统的形式接收企业信息输入,展示企业划分簇类别、该企业所在簇的有效标签。

6. 任务要求

【开发说明】

无监督分类是数据科学研究的一个重点课题。金融行业积累了大量的企业脱敏数据信息,企业的有效划分及标识在企业信用评估、企业风险监测中具有重要作用并受到各大平台的重点关注。本次拟定通过对不带标识企业脱敏数据进行无监督训练,建立合适的无监督分类模型方法,对不带标识的企业进行有效、合理的划分。

【技术要求与指标】

在此项目中,要求详细阐述使用的数据预处理方法,训练过程中如何对模型进行适配调优,如何选取合适的无监督分类方法,训练所得无监督分类模型的评估指标,最终模型的效率(如为企业划分簇所用时间,最终形成几类有效合理的簇划分,每类簇明显的特征标识)等。

如下列出项目中所需要的部分评估指标:

(1)模型训练所需时间;

(2)模型预测新企业样本所需时间;

(3)模型评估指标,例如准确率,召回率,F1-score指标,AUC指标,ROC指标;DB指数、CHI指数、轮廓系数等;

(4)系统接收输入企业信息,输出企业划分类别所需时间。

【任务清单】

(1)模型的概述与简介,对算法模型有充分的认识理解,切不可只会套用;

(2)模型的参数调优过程(如果包含调优过程);

(3)模型的效率(包括预处理数据的效率、聚类以及打标签的效率)。

【提交材料】

(1)项目概要介绍;

(2)项目简介PPT;

(3)项目详细方案;

(4)项目演示视频;

(5)企业要求提交材料:

Ø  所使用的无监督分类方法原理与参数调优过程概述

Ø  训练后的无监督分类方法,以及对训练样例进行簇划分后各簇的打标签结果

Ø  可视化web端开发,支持单个与批量输入查询分类结果

(6)团队自愿提交的其他补充材料。

7. 参考信息

(1)开发工具:开发工具以及开发平台不限,可以借助开源的工具;

(2)数据接口:企业数据会通过网盘提供。

8. 评分要点

本赛题评分要点参考附件一:A类企业命题统一评分标准。

A10-浪潮-无监督分类系统训练集-Inspur

承办单位

  • 国家服务外包人力资源研究院
  • 无锡市商务局
  • 无锡市教育局
  • 江南大学
订阅号