摘要
本申请实施例提供了一种基于视觉强化学习的模型训练方法、装置、设备及介质。包括:获取样本图像帧及语义类别信息,将语义类别信息输入视觉大语言模型,得到第一卷积核参数,及将样本图像帧输入第一特征卷积核得到第一特征热力图;通过预设视觉强化学习模型得到样本图像帧的第二卷积核参数和第二特征热力图;基于第一卷积核参数与第二卷积核参数构建第一蒸馏损失,及基于第一特征热力图与第二特征热力图构建第二蒸馏损失;通过样本动作数据和样本状态数据预测和计算,构建自监督损失和目标策略损失;基于第一蒸馏损失、第二蒸馏损失、自监督损失和目标策略损失,对预设视觉强化学习模型进行参数调节,得到目标视觉强化学习模型。
技术关键词
强化学习模型
样本
模型训练方法
热力图
图像
视觉
数据
策略
大语言模型
蒸馏
解码器
参数
语义
模型训练装置
计算机设备
网络
文本
模块
处理器
可读存储介质
系统为您推荐了相关专利信息
气体泄漏检测方法
成像组件
激光测距组件
气体泄漏检测装置
红外探测器
多语言
模块
文本特征加权
数据分类技术
文本分类模型
视觉问答方法
字典
语言编码器
图文
文本生成图像