在线av. 率先冲破大范畴多类数据损坏问题！中科大离线强化学习新步地入选NeurIPS 2024

机器东谈主适度和自动驾驶的离线数据损坏问题有解了！在线av.

中科大王杰考验团队 ( MIRA Lab ) 提倡了一种变分贝叶斯推断要害，有用地种植了智能决策模子的鲁棒性。

论文发表在 CCF-A 类东谈主工智能顶级会议 NeurIPS 2024。

现实宇宙的离线数据集（如机器东谈主适度、自动驾驶等）往往因传感器故障或坏心裂缝而受到数据损坏（如数据带有噪声或顽抗性裂缝）的影响。

尽管现存离线强化学习（offline RL）要害在鲁棒性方面已取得了进展，但它们仍难以处理因离线数据的各样元素（即状况、动作、奖励和转动动态）均部分损坏所引入的高不细目性。

作家针对离线数据的各样元素均有受损这一复杂的履行问题，提倡了一种鲁棒的变分贝叶斯推断要害TRACER。

在濒临各样数据损坏时，该要害于所有实验中均已毕了最优，相干于现存的 SOTA 要害种植了高达 +21.1% 的决策性能，并在 24 组仅有单类数据损坏的实验中仍已毕了 16 组的最优性能。

TRACER 主要具有以下三点上风：

TRACER 初次将贝叶斯推断引入到抗损坏的离线强化学习（corruption-robust offline RL）中。通过将所有离线数据行动不雅测值，TRACER 捕捉了由各样损坏数据所导致的动作价值函数中的不细目性。

通过引入基于熵的不细目性度量，TRACER 有时诀别损坏数据和干净数据，从而调控并放松损坏数据对智能体模子熟练的影响，以增强鲁棒性。

作家在机器东谈主适度（MuJoCo）和自动驾驶（CARLA）仿真环境中进行了系统性地测试，考证了 TRACER 在各样离线数据损坏、单类离线数据损坏的场景中均权臣种植了智能体的鲁棒性，超出了多个现存的 SOTA 要害。

注：下文中公式若泄漏不好意思满，请尝试驾驭滑动稽查

布景与问题贝叶斯强化学习

基于一般的马尔可夫决策流程（MDP）界说值函数和动作值函数。

在此基础上，界说动作值漫步。

这里、。

该 MDP 下，算法的目的是学习一个最优政策以最大化值函数。

变分推断

变分推断是肖似复杂后验漫步的有用工夫，常用于强化学习中臆测参数的不细目性或模子的罪过。

给定不雅测值和潜在变量，贝叶斯推断的目的是狡计后验漫步。

为此，贝叶斯推断引入了参数化的漫步，并最小化 Kullback-Leibler ( KL ) 散度。

即最大化把柄下界 ( ELBO ) ：

。

数据损坏下的离线强化学习

在现实宇宙中由传感器或东谈主类收罗的数据可能会因传感器故障或坏心裂缝而受到损坏。设和分别暗示未受损和受损的数据集，包含样本。

假定未受损的状况效力漫步，受损状况效力，未受损动作效力，受损动作效力，受损奖励效力，受损的下一状况效力。

未受损和受损的状况 - 动作漫步分别暗示为和。

对随便和，引入损坏数据下的贝尔曼公式：

这里暗示立地变量的漫步规则与疏导。

基于上述公式，作家的目的是基于损坏数据学习鲁棒的政策。

要害先容

总的来说，该要害将所有类别的数据损坏视为活动价值函数（action-value function）中的不细目性，并使用所有类别的离线数据行动不雅测值，以臆测活动价值函数的后验漫步。

这权臣增强了智能体对所有类别数据损坏的鲁棒性。

此外，洽商到受损数据每每会引起更高的不细目性和熵，该要害引入了基于熵的不细目性度量，进而能有用诀别损坏数据和干净数据。

基于这类度量，该要害能调治并放松损坏数据对智能体模子熟练的负面影响，进而权臣提高模子在干净测试环境中的鲁棒性和性能。

动机

使用多种受损数据臆测积蓄奖励函数（即动作值函数）会引入很高的不细目性，原因主要有两个方面：

一是多种类型的损毁会向数据集的所有元素引入较高的不细目性；

二是每个元素与积蓄奖励（即动作值、Q 值）之间存在明确的经营性相干。

下图为决策流程的概率图模子。实线伙同的节点暗示数据荟萃的数据，而虚线伙同的 Q 值（即动作值、积蓄讲演）不属于数据集。这些 Q 值每每是算法旨在臆测的任务目的。

为了处理这类由多种数据损毁（即状况、动作、奖励、状况转动数据受损）导致的高不细目性问题，基于上图所示的概率图模子，作家提倡应用数据荟萃的所有元素行动不雅测数据。

这么作念的目的，是应用这些不雅测数据与积蓄奖励之间的高度经营性，来准确地识别动作值函数的不细目性。

基于受损数据的贝叶斯推断

作家提倡使用离线数据集的所有元素行动不雅测值，应用数据之间的经营性同期措置不细目性问题。

通过引入贝叶斯推理框架，该步的目的是贴近动作价值函数的后验漫步。

当先，基于离线数据荟萃动作价值与四个元素（即状况、动作、奖励、下一状况）之间的相干，界说：

，参数化为。

在动作价值漫步的基础上，不错探索怎样使用离线数据中可用的元素来臆测的后验漫步。

从效力损坏漫步的动作运行，将它用作不雅测值，在变分推断下肖似动作价值漫步的后验漫步。

这些动作的似然函数为，参数化为。

在变分推断框架下，最大化后验并推导出基于 ELBO 的最小化蚀本函数：

其中，、和分别效力离线数据漫步、和。

和上述流程疏导，用奖励行动不雅测，其似然函数为，参数化为。

推导出的蚀本函数为：

其中，和分别效力离线数据漫步和。

同上，临了用状况行动不雅测，其似然函数为，参数化为。

推导出蚀本函数：

基于三个蚀本函数、、和传统贝叶斯强化学习的动作值蚀本，不错有用地拟合动作价值函数的后验漫步，从而将数据损坏建模为动作值函数中的不细目性。

基于熵的不细目性度量

为了进一步应付各样数据损坏带来的挑战，作家念念考怎样应用不细目性进一步增强鲁棒性。

鉴于目的是提高在干净环境中的智能体性能，作家提倡减少损坏数据的影响，重心是使用干净数据来熟练智能体。

因此，作家想象了一个两步谋略——先诀别损坏数据和干净数据；再调控与损坏数据经营的蚀本，减少其影响，从而种植在干净环境中的推崇。

关于第一步数据的诀别，由于损坏数据每每会变成比干净数据更高的不细目性和动作价值漫步熵，因此作家提倡使用熵来量化损坏数据和干净数据的不细目性。

作家使用贝叶斯漫步强化学习中的分位数归来，用分位点来获取相应的动作值分位函数。

对分位点过甚相应的函数值进行升序排序后，咱们能得到围聚、以及臆测的 PDF 值，其中，而关于，有。

然后，可臆测熵：

其中，暗示（关于），暗示（关于）。

关于第二步的蚀本调控，作家使用指数熵的倒数来加权咱们提倡的合座蚀本函数中与对应的蚀本。

因此，在学习流程中，TRACER 有时调控与损坏数据经营的蚀本，并专注于最小化与干净数据经营的蚀本，从而增强在干净环境中的鲁棒性和性能。

算法架构

TRACER 的框架图如下所示。

可见相干于传统的离线强化学习算法，作家的提倡要害修改了品评家（critic）模子，将其改为用于漫步强化学习（distributional RL）的动作值分位数归来的架构。

此外，作家还添加了一个新的集成模子（ensemble model）。

该集成模子由三个子模子、、组成，分别重建状况、动作、奖励，以优化品评家模子，进而拟合动作值函数的后验漫步。

数据受损，仍是保握鲁棒性

为了模拟数据受损的情形，作家对数据集的部分数据加入立地噪声或顽抗裂缝来构建损坏数据。

在实验中，作家对 30% 的单类数据进行损坏。

因此，在所有类型的数据皆有损坏时，所有这个词离线数据荟萃，损坏数据占约的范畴。

哥也色地址

在机器东谈主适度（MuJoCo）仿真环境测试中，作家遴荐了常用的 3 个机器东谈主适度环境（Halfcheetah，Walker2d，Hopper）。

这些环境的状况为仿真机器东谈主各个部位（如腿部、关节等）的不同物理量（如位置、角度、速率等），适度动行动机器东谈主特定部位（如腿部、头部）的力。

所有类型数据元素均存在立地损坏（random）或顽抗损坏（advers）时的实验成果见下表。

不错看到，TRACER 在所有适度环境中均得回了较为较着的性能种植，种植幅度达 +21.1%，在所有环境中皆得回了最高的平均得分。

这一成果展现了 TRACER 对大范畴、各样数据损坏的强鲁棒性。

单种类型数据元素存在损坏的部分实验成果见表 2 和表 3。

而在单类数据损坏中，TRACER 于 24 个实验诞生里已毕 16 组最优性能，可见 TRACER 面向小范畴、单类数据损坏的问题也能有用地增强鲁棒性。

存在立地损坏时，TRACER 在 8 个实验诞生中得回了最高的平均得分。

相同地，单类元素存在顽抗损坏时，TRACER 在 8 个实验诞生中也得回了最高的平均得分。

作家简介

本论文作家杨睿是中国科学工夫大学 2019 级硕博连读生，师从王杰考验、李斌考验，主要决策观点为强化学习、自动驾驶等。

他曾以第一作家在 NeurIPS、KDD 等顶级期刊与会议上发表论文两篇，曾获滴滴精英实习生（16/1000+）。

论文地址：

https://openreview.net/pdf?id=rTxCIWsfsD

GitHub：

https://github.com/MIRALab-USTC/RL-TRACER

— 完 —

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉咱们：

你是谁，从哪来，投稿内容‍

附上论文 / 技俩主页联络，以及经营步地哦

咱们会（尽量）实时答复你

点这里� � 柔软我，牢记标星哦～

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再见 ~