摘要
本发明涉及智能决策技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了一种行为克隆模型训练方法、装置、设备及介质,包括:获取多模态输入,对多模态输入进行特征提取与拼接,得到输入表示;利用预设解码器提取输入表示的潜在表示,利用预设策略头将潜在表示解码为动作数据;利用信息瓶颈原理计算潜在表示的互信息损失函数值,计算动作数据与预设真实动作数据的均方误差损失值;根据互信息损失函数值和均方误差损失值对预设解码器和预设策略头的参数进行迭代更新,得到更新模型;实时检测更新模型中的联合损失函数值是否小于预设阈值;当联合损失函数值小于预设阈值时,停止参数迭代更新,得到优化模型。
技术关键词
模型训练方法
联合损失函数
多模态
解码器
误差
编码
策略
智能决策技术
深度特征提取
模型训练装置
梯度下降算法
数据
参数
图像块
瓶颈
多层感知器
可读存储介质
变换器
医疗健康
系统为您推荐了相关专利信息
土石方
堆石坝
平衡方法
群智能优化算法
资源调度优化
腰部支撑保护装置
不良姿势
腰椎
保护方法
支撑元件
热电联产机组
电锅炉
分布鲁棒
综合能源系统
发电机