摘要
本申请提供一种基于特征增强的多模态任务决策方法及装置,涉及计算机技术领域,该方法包括:计算多个图像帧中相邻图像帧之间的帧差信息;将多个图像帧输入到语义编码器中,得到语义特征,以及将帧差信息输入到运动编码器中,得到运动特征;将语义特征和运动特征输入到交叉注意力网络中得到增强后的语义特征和增强后的运动特征;将增强后的语义特征和运动特征输入到与目标任务相关的任务决策网络中,生成对应的决策信息。本申请提供的基于特征增强的多模态任务决策方法及装置,通过在训练阶段利用视觉语言模型提供的具备先验知识的知识感知特征引导视觉编码器关注与任务相关的对象,极大地提高了视觉编码器的特征提取能力。
技术关键词
语义特征
运动特征
感知特征
决策方法
运动编码器
图像
融合特征
注意力
样本
视觉
网络
特征提取能力
像素
特征提取模块
处理器
色彩值
键值
系统为您推荐了相关专利信息
图像融合方法
特征提取网络
多尺度特征提取
融合特征
注意力机制
物流管理方法
语义特征
语义交互方法
订单
视觉特征
视频字幕生成方法
融合语义
动作特征
分层
生成字幕