【A02】基于非特定类别的图像前景主体分割算法【万兴科技】
1. 命题方向
智能计算
2. 题目类别
计算类
3. 题目名称
基于非特定类别的图像前景主体分割算法
4. 背景说明
【整体背景】
图像语义分割是计算机视觉的重要研究课题,可被广泛的应用到各个领域,比如图像的前景分割,可以快速设计富有创意的图片,也可以针对视频换背景,将前景人物融入到不同的场景中,产生有创意的应用。传统的人工处理方式对人员的专业技能有一定要求,不仅工作量巨大、速度慢,效果差等问题。近年随着深度学习算法的发展,图像语义分割算法逐步成熟,基于人像的分割算法已经被广泛应用。本赛题旨在寻找一种图像语义分割方法,可以不分图像类型进行图像的前景主体分割,能够快速准确将图像的主体与背景分离,以提升更广泛的适用性。
【公司背景】
万兴科技(300624.SZ)成立于2003年,并于2018年登陆A股创业板,是全球领先的新生代数字创意赋能者,致力于成为全世界范围内有特色、有影响力的百年软件老店。
公司面向全球海量新生代互联网用户提供潮流前沿、简单便捷的数字创意软件产品与服务,赋能人们在数字时代与众不同地进行创意表达,帮助每一个新生代创作者将头脑中的灵感变为可见的现实。
万兴科技也是中国政府认定的“国家规划布局内重点软件企业”,连续跻身“德勤高科技高成长亚太区500强”、“福布斯中国最具发展潜力企业”等荣誉榜。
公司正以前瞻的视野推进全球化布局,研发总部位于深圳,并在温哥华、东京、长沙等地设有运营中心,业务范围遍及全球200多个国家和地区。
【业务背景】
万兴科技持续深耕数字创意软件领域,旗下明星产品包括万兴喵影、万兴优转、亿图图示、Filmora、Filmstock、Fotophire等。以AI技术赋能数字创意为目标,让简单的创意无所不在。
5. 项目说明
【问题说明】
人类视觉系统在面对自然场景时具有快速搜索和定位感兴趣目标的能力,这种视觉注意机制是人们日常生活中处理视觉信息的重要机制。随着互联网带来的大数据量的传播,如何从海量的图像和视频数据中快速地获取重要信息,已经成为计算机视觉领域一个关键的问题。
通过在计算机视觉任务中引入这种视觉注意机制,即视觉显著性,可以将图片主体与背景分割开。
本赛题要求参赛者自行收集筛选或进行数据扩增的方式整合可训练图像数据、调研设计显著目标预测(Salient object detection)模型,并完成模型训练调优、改进加速以及工程化部署等工作,最终交付离线型PC端可执行程序,针对包括但不仅限于本赛题提供的20张示例图像进行图像前景主体分割(本项目要求实施者自行以收集开源数据或自主建立数据的方式收集数据、建立显著目标预测(Salient object detection)模型,并完成模型训练、优化、工程化等工作,最终产出一个可执行程序,针对20张示例图片进行图像前景主体分割)。
【用户期望】
将图像主体与背景分割,追求主体边缘清晰性和精准性,具体要求如下:
主体定义明确——主体是一张图像中最吸引人注意的前景物体,可为单个人或物体,如:杯子、名画、汽车等;也可以是多个物体的组合,如:多人合影、扛着箱子的人、一堆纸箱子等。
边缘分割准确——边缘分割的准确度一直是业内衡量分割效果好坏的重要指标。本项目希望能够在前景和背景对比度低、背景复杂、主体形状复杂等各种复杂环境下,依然能保证主体边缘的精准分割。在边缘分割时,需注意以下几点:
(1)主体部分区域被非主体遮挡时,只需精准的分割出视觉中主体与非主体的可见区域,不需要“脑补”主体被遮挡的部分。
(2)对于主体上毛发或类毛发、复杂结构的边缘分割,应做到越精准越好。在无法保证绝对精准时,建议剔除少量复杂边缘部分,不要为了保留全部主体内容而使得主体部分残留过多背景。
(3)对于带有透明/半透明属性的主体,如玻璃杯、鱼缸等,只需要分割清边缘即可。
6. 任务要求
【开发说明】
在此项目中,按照课题要求自行(进行)采集数据(采集)和清洗数据(清洗)(可以寻找公开数据集),用于训练的图像数据数量自定,建立合适的网络模型进行训练,针对分割效果和性能进行参数调整、模型优化;完成算法和应用程序的开发,最终提供PC端可执行程序,要求是可以选择打开任何一张图片进行前景分割处理,最终对本次提供的测试集进行前景主体分割的效果呈现。
按照课题要求自行收集、筛选和清洗可训练图像数据,调研设计算法模型,对标技术要求与指标训练调优算法模型并将其工程化部署,提供可交付的离线型PC端可执行程序,要求:可选择任意图片(不仅限于提供的20张测试图像)进行测试,并呈现出分割后的透明背景PNG图片(可参考上页效果图)。
【技术要求与指标】
模型大小 |
不超过100M |
算法性能指标 |
在1080 TI GPU上处理一张图片的时间不超过5秒 |
效果指标 |
主体边缘细节清晰,MIOU越高越好 |
【任务清单】
(1)明确业务需求定义,根据定义收集、筛选或数据增强的方式整合可训练图像数据集(根据定义收集、筛选、清洗出合适的图像数据集);
(2)深度学习模型调研、设计和训练;
(3)模型优化改进(模型效果改进或模型压缩加速等);
(4)模型的效果评估以及图像处理效率(模型测试平台、图像前处理、图像后处理以及模型前向推理时间);
(5)模型大小、参数量(Params)和计算量(Flops);
(6)网络模型工程化,提交离线版可进行验证的包含全部依赖的C++例程(提示:推理框架有openvino、ncnn、tensorrt、tvm等)。
【提交材料】
(1)项目概要介绍;
(2)项目简介PPT;
(3)项目详细方案;
(4)项目演示视频;
(5)企业要求提交材料:
Ø 项目简介PPT(与(2)内容合并),包括:项目执行思路介绍;所使用的算法模型、优化方案、项目工程化过程介绍;算法及模型的优劣势、技术指标达成情况介绍;对20张示例图片进行图像主体语义分割的结果展示等。
Ø 项目详细技术方案文档(与(3)内容合并),包括详细描述算法实现的技术方案及原理。
Ø 本地化可执行程序:在不依赖网络的情况下,向程序输入一张待分割的图片,程序自动输出分割后的透明背景PNG图片。
(6)团队自愿提交的其他补充材料。
【开发工具与数据接口】
开发工具:开发工具及平台不限,图像数据集可以自己整理或者找公开数据集。
7. 参考信息
无
8. 评分要点
本赛题评分要点参考附件一:A类企业命题统一评分标准。
除此之外,企业还会重点关注:
1. 算法创新:算法创新描述详细、清晰,不限于数据预处理、网络模型改进、损失函数设计、主体边缘前处理或后处理、模型加速等技术的创新。
2. 算法实现与交付:算法设计方案可行性高,算法的性能和效果与技术指标相匹配,项目完成度好。