【A24】基于OpenAi gymnasium环境训练智能体并生成可解释算法【万维艾斯】
发布时间: 2023-12-27 14:44:35

1.命题方向

智能计算

2.题目类别

计算类

3.题目名称

基于OpenAi gymnasium环境训练智能体并生成可解释算法

4.背景说明

【整体背景】

强化学习是一种强大的技术,可用于从试错过程中自动发现最优的行为策略,已经被广泛应用于解决各种复杂的环境交互问题。然而,尽管其在自动决策和控制领域取得了显著的成就,但作为机器学习算法的一种,强化学习在某些方面仍然面临着重要的挑战,其中之一就是可解释性的问题。

可解释性一直是机器学习领域的一个核心难题,而强化学习也不例外。传统的强化学习算法通常构建复杂的模型,这些模型往往难以被人类理解,限制了其在一些关键领域的应用,如医疗、自动驾驶等需要高度可解释性和透明性的领域。此外,缺乏可解释性也导致了强化学习在环境仿真、任务泛化等方面的性能不稳定,难以实现普遍适用的解决方案。

为了解决这一问题,近年来涌现了大量关于强化学习可解性(Explainable Reinforcement Learning, XRL)的研究。XRL旨在通过引入透明的模型和可解释性规则来增强强化学习算法的可解释性,从而使其更容易被人类理解和信任。

【公司背景】

江苏万维艾斯网络智能产业创新中心有限公司由江苏省高等学校优秀科技创新团队(南京大学人工智能推理与学习团队)投资成立的人工智能产品研发和产业化平台。公司是国内首批以人工智能技术创新为核心价值的高新技术企业,旨在提高人工智能产业的自主创新能力,努力打造一个集国际技术转移、技术研发、国际合作、科技创业、咨询培训功能于一体的创新创业平台。

【业务背景】

强化学习是江苏万维艾斯网络智能产业创新中心有限公司的一个业务方向。当前存在这样一个强化学习任务,需要对常见的强化学习算法进行训练并生成可解释算法。

5.项目说明

【问题说明】

针对Breakout环境训练出一个强化学习算法,通过该算法让游戏获得尽可能多的分数,然后用可解释的白盒算法(比如机器学习算法),替代原来的强化学习算法,从而获得一个性能好且可解释的决策算法。Breakout环境如图1所示。

1 Breakout环境

训练强化学习算法和可解释算法的过程中均需要提供训练和测试的指标。训练强化学习过程中需要给出训练的奖励变化曲线(如图2),以及在十个episode下的测试奖励(如图3),并给出十轮的平均分数。


2 强化学习算法训练过程中奖励变化曲线


3 强化学习算法评估过程中奖励变化曲线

训练可解释算法(提示:可以用训练好的强化学习算法和环境交互产生的数据)后需要提供类似R方(R-squared)或者F1分数(F1-Score)等指标来评估模型的性能(如图4),并且需要使用可解算法来运行Breakout游戏,再次记录10个episode的得分,并绘制出曲线图(如图3),并给出十轮的平均分数。


4 强化学习算法评估过程中奖励变化曲线

此外,需要对可解释算法进行可视化(如图5),并给出一个推理的示例报告。

5 可解释算法可视化示例(决策树)

【用户期望】

通过训练好的可解释算法得到性能好,可解释的决策算法。

6.任务要求

【开发说明】

自由选择强化学习算法在Breakout环境进行训练,并继续训练出可解释性能好的决策算法。开发完成后需要生成两个模型,强化学习模型和可解释模型(比如决策树),训练好的强化学习模型的得分越高越好,训练好的可解释模型的得分越接近强化学习模型越好。具体如下:

(1)利用强化学习算法训练模型,使其在Breakout环境中获得高分。提供训练过程中的奖励变化曲线,以及在十个episode下的测试奖励,并给出十轮的平均分数。

(2)利用可解释性算法(也即机器学习算法)的白盒算法,基于训练好的强化学习模型和与环境交互产生的数据,训练一个可解释算法。使用类似R方(R-squared)或F1分数(F1-Score)等指标评估可解释算法对数据的拟合程度。

(3)使用可解释算法运行Breakout游戏,记录10个episode的得分,并绘制奖励变化曲线图(参见图3)。给出十轮的平均分数。

【技术要求与指标】

提供可用于推理的docker镜像(模型需要为CPU版本),算法输出结果放在/result目录,docker镜像大小不超过5G。容器启动后,自动运行算法,将结果写到/result目录,主要比较选手训练的强化学习训练的效果(训练好的模型在环境下的十轮平均得分),训练的可解释算法的效果(和原来强化学习十轮得分的比较),如果有训练的视频会更好。

【提交材料】

(1)项目概要介绍;

(2)项目简介PPT;

(3)项目详细方案;

(4)项目演示视频;

(5)团队自愿提交的其他补充材料。

【任务清单】

(1)完成算法设计与实验;

(2)完成提交材料内容。

【开发工具与数据接口】

(1)开发工具不限;

(2)数据接口待定。

7.其他

8.参考信息

9.评分要点

赛题评分要点见附件一:A 类企业命题初赛统一评分标准。




订阅号