摘要
本申请提供一种基于特征增强的多模态任务决策方法及装置,涉及计算机技术领域,该方法包括:计算多个图像帧中相邻图像帧之间的帧差信息;将多个图像帧输入到语义编码器中,得到语义特征,以及将帧差信息输入到运动编码器中,得到运动特征;将语义特征和运动特征输入到交叉注意力网络中得到增强后的语义特征和增强后的运动特征;将增强后的语义特征和运动特征输入到与目标任务相关的任务决策网络中,生成对应的决策信息。本申请提供的基于特征增强的多模态任务决策方法及装置,通过在训练阶段利用视觉语言模型提供的具备先验知识的知识感知特征引导视觉编码器关注与任务相关的对象,极大地提高了视觉编码器的特征提取能力。
技术关键词
语义特征
运动特征
感知特征
决策方法
运动编码器
图像
融合特征
注意力
样本
视觉
网络
特征提取能力
像素
特征提取模块
处理器
色彩值
键值
系统为您推荐了相关专利信息
三维体素模型
智能评估方法
多模态成像设备
多尺度特征金字塔
动态资源调度
声学特征
语音检测方法
语义特征
跨模态
计算机执行指令