基于特征增强的多模态任务决策方法及装置

正文

推荐专利

基于特征增强的多模态任务决策方法及装置

申请号：CN202510532953

申请日期：2025-04-25

公开号：CN120635481A

公开日期：2025-09-12

类型：发明专利

摘要

本申请提供一种基于特征增强的多模态任务决策方法及装置，涉及计算机技术领域，该方法包括：计算多个图像帧中相邻图像帧之间的帧差信息；将多个图像帧输入到语义编码器中，得到语义特征，以及将帧差信息输入到运动编码器中，得到运动特征；将语义特征和运动特征输入到交叉注意力网络中得到增强后的语义特征和增强后的运动特征；将增强后的语义特征和运动特征输入到与目标任务相关的任务决策网络中，生成对应的决策信息。本申请提供的基于特征增强的多模态任务决策方法及装置，通过在训练阶段利用视觉语言模型提供的具备先验知识的知识感知特征引导视觉编码器关注与任务相关的对象，极大地提高了视觉编码器的特征提取能力。

技术关键词

语义特征运动特征感知特征决策方法运动编码器图像融合特征注意力样本视觉网络特征提取能力像素特征提取模块处理器色彩值键值

系统为您推荐了相关专利信息

一种基于多尺度协同网络的多曝光图像融合方法

图像融合方法特征提取网络多尺度特征提取融合特征注意力机制

基于智能图像识别的门禁管理方法及系统

智能图像识别门禁管理方法身份验证决策数据

一种针对用户需求的物流管理方法

物流管理方法语义特征语义交互方法订单视觉特征

一种基于分层语义表示和聚合网络的视频字幕生成方法

视频字幕生成方法融合语义动作特征分层生成字幕

视频背景音乐生成方法、系统、智能终端及存储介质

关键帧视频背景音乐生成方法生成程序视频帧

基于特征增强的多模态任务决策方法及装置

站点导航

APP 下载