【A04】基于机器学习实现涉诈网址自动分类识别【移动创新院】
发布时间: 2022-11-24 15:22:06

本届A类赛题可通过以下方式提问与交流:

1、大赛官网团队账号-赛题答疑区提问,组委会定期收集问题提交至企业解答后公布;

2、可前往赛题答疑论坛(PC端点击链接)https://mastergo.com/file/77782156635006?utm_source=fwwb&utm_medium=saitishouce&utm_campaign=&utm_term=&utm_content=提问或交流,企业定期回复。


1.命题方向

企业服务+智能计算

2.题目类别

应用类

3.题目名称

基于机器学习实现涉诈网址自动分类识别

4.背景说明

【整体背景】

近年来,电信网络诈骗呈高发趋势,诈骗手法也不断翻新,造成了巨大的财产损失,严重影响了人民群众的正常生活。为应对当前网络安全问题,政府部门坚决贯彻党中央决策部署,持续开展电信网络安全领域治理工作。

【公司背景】

中国移动(浙江)创新研究院是中国移动浙江公司与中国移动通信集团研究院共同组建成立的集团级研发单元,于20217月由浙江省委书记袁家军和中国移动董事长杨杰共同揭牌成立。中国移动(浙江)创新研究院按照集团的战略定位,创新推动5G、人工智能、大数据等新兴技术的融合应用,加快推进新一代信息技术深度融入经济社会民生,推动以“九天”人工智能为代表的中国移动集团战略型核心成果规模化应用和价值转化,全力支撑做强做优做大数字经济,立足长三角,辐射全国,建成国家级新型研发机构,打造国内领先的人工智能创新中心。

【业务背景】

为了精准、高效地规避潜在的诈骗风险和财务损失,我们提出“谛听”诈骗网址识别竞赛。这项竞赛的目的是吸引来自机器学习、深度学习、数据科学、网络安全专业的优秀同学,一起针对这一问题进行尝试,并为网络反欺诈领域构建先进人工智能技术奠定基础。

5.项目说明

【问题说明】

诈骗网址存在标注少、隐蔽性高、有效期短、更新快、发现难等问题,给识别和监管工作带来极大的挑战。

【用户期望】

为了精准、高效地规避潜在的诈骗风险和财务损失,需要参赛者利用少量带标注的样本建立模型,对大量网址数据完成多分类任务。

6. 任务要求

【开发说明】

1)基于训练集样本训练模型,给出测试集样本的分类标签;

2)需要借助九天毕昇人工智能平台(https://jiutian.10086.cn/edu/#/home)完成作品。

【技术要求与指标】

TP ( Ture Positive )真阳性:预测为正,实际也为正

FP ( False Positive )假阳性:预测为正,实际为负

FN ( False Negative )假阴性:预测为负,实际为正

TN ( True Negative )真阴性:预测为负,实际也为负

P ( Precision )精确率 P = TP /(TP+FP)

R ( Recall )召回率 R = TP /(TP+FN)

注:刷单诈骗和信贷理财分类的score会更被关注。

【提交材料】

1)项目概要介绍;

2)项目简介PPT;

3)项目详细方案;

4)项目演示视频;

5)企业要求提交的材料:

①测试集分类标签;

②可执行的代码;

③陈述建模思路的PPT,包括但不限于以下内容:

A.问题定义

B.端到端处理流程(如数据分析、数据预处理、特征工程、模型优化等)

C.模型效果(如精确率、召回率、鲁棒性、可解释性等)

D.对关键技术的消融验证

E.方案亮点、创新点

④陈述建模思路的Word/LaTeX,图文并茂;

⑤如果运用了外部数据,提供详细的介绍与来源说明;

6)团队自愿提交的其他补充材料。

【开发工具与数据接口】

开发工具及开发平台不限,可以借助开源工具。业务流程设计合理,程序可正常运行,不限制运行在具体的硬件平台和型号,数据与功能API,有技术说明即可,不需要做具体的接口对接集成调试与验证。

7.其他

如果有具体的客户案例或经过客户实际场景测试,在不涉及知识产权的情况下,可以提供使用或试用说明文档。

8.参考信息

1)训练集【train1.csv、train2.csv、train3.csv、screenshot】:

①百万级带A类标签的网址(已过滤常见的正常网址);

②万级带部分标签、文本内容的诈骗网址;

③百级带文本内容、快照、B类标签的重点类别诈骗网址。

A类标签类别说明:0 正常、1 购物消费、2 婚恋交友、3 假冒身份、4 钓鱼网站、5 冒充公检法、6 平台诈骗、7 招聘兼职、8 杀猪盘、9 博彩赌博、10 信贷理财、11 刷单诈骗、12 中奖诈骗

B类标签类别说明:1 刷单诈骗、 2 信贷理财

2)测试集【test(unlabeled).csv】:百万级。

①可以使用外部工具和数据对网址做预处理和特征工程(如WHOIS、ALEXA等),但需要说明来源和详细处理方法;

②可以对三个训练集做融合,但是禁止在训练阶段以其他方式使用测试集,例如,将测试集并到训练集中、将测试集用于数据过滤等;

③在实际的反欺诈业务中,诈骗网址是存在生命周期的,因此其中部分网址样本可能无法访问或已被封禁,这类数据的处理需要在方案中体现。

9.评分要点

赛题评分要点见附件A 类企业命题初赛统一评分标准。

除此之外企业还重点关注以下几个方面测试集分类结果技术指标特征工程模型算法方案亮点及创新点为着重关注点

1)测试集分类结果技术指标

2)业务问题定义

3)数据分析及预处理

4)特征工程

5)模型算法

6)关键技术的消融验证

7)方案亮点及创新点



订阅号