摘要
本申请提供一种逆约束推断方法、装置、设备和介质,涉及人工智能技术领域。包括:在包含专家与非专家演示的数据集上,通过预训练得到扩散生成模型验证器和奖励模型,并冻结扩散生成模型验证器和奖励模型的模型参数;获取扩散生成模型验证器在约束模型和奖励模型的引导下生成的第一轨迹,并根据第一轨迹与数据集中的专家数据轨迹的对比学习结果更新约束模型,得到第一约束模型;继续获取扩散生成模型验证器在第一约束模型和奖励模型的引导下生成的第二轨迹,通过调整对比学习的损失项系数,根据第二轨迹与数据集中的专家数据轨迹的对比学习结果更新第一约束模型,获取损失项系数条件不同的第二约束模型。本申请能够提升逆约束推断的灵活性和效率。
技术关键词
轨迹
推断方法
计算机执行指令
引导器
数据
推断装置
可读存储介质
人工智能技术
计算机程序产品
处理器通信
存储器
模块
参数
电子设备
规划
噪声