一种基于双向Transformer的多模态视频描述生成方法

正文

推荐专利

申请号：CN202510611366

申请日期：2025-05-13

公开号：CN120544093A

公开日期：2025-08-26

类型：发明专利

摘要

本发明涉及视频处理与自然语言生成技术领域，且公开了一种基于双向Transformer的多模态视频描述生成方法，包括以下步骤：多模态特征提取：分别提取视频的图像特征、运动特征、语音转录文本特征和目标区域特征，并将各特征映射至统一维度；双向解码器处理：利用正向解码器和反向解码器构成的双向Transformer架构，将多模态特征分别输入正向解码器和反向解码器，通过多模态融合注意力机制和多头注意力机制实现多模态信息交互建模；损失函数优化：计算反向解码器和正向解码器的交叉熵损失，并通过预设超参数平衡两者权重。该基于双向Transformer的多模态视频描述生成方法的目的是通过双向Transformer结构和对多模态信息的更好利用，提高视频描述生成的质量。

技术关键词

解码器生成方法运动特征视频融合注意力机制多模态特征多头注意力机制损失函数优化多模态信息自然语言生成技术掩码矩阵文本时序依赖关系自动语音识别超参数置信度阈值

系统为您推荐了相关专利信息

剧本预演处理方法、装置、计算机设备和存储介质

脚本文本场景元素参数

一种基于迁移学习的电力负荷识别方法与系统

电力负荷识别方法数据缺失值填充方法有功功率编码器

一种基于多视角场景下的人体三维姿态估计方法、系统、终端及存储介质

人体三维姿态估计多视角人体关键点视频流同步相机标定

图像识别方法及相关装置

图像识别方法图像块可执行程序代码编码特征样本

表情包生成方法、装置、设备以及存储介质

生成表情长宽比大语言模型图片生成提示词

一种基于双向Transformer的多模态视频描述生成方法

站点导航

APP 下载