摘要
本发明涉及视频处理与自然语言生成技术领域,且公开了一种基于双向Transformer的多模态视频描述生成方法,包括以下步骤:多模态特征提取:分别提取视频的图像特征、运动特征、语音转录文本特征和目标区域特征,并将各特征映射至统一维度;双向解码器处理:利用正向解码器和反向解码器构成的双向Transformer架构,将多模态特征分别输入正向解码器和反向解码器,通过多模态融合注意力机制和多头注意力机制实现多模态信息交互建模;损失函数优化:计算反向解码器和正向解码器的交叉熵损失,并通过预设超参数平衡两者权重。该基于双向Transformer的多模态视频描述生成方法的目的是通过双向Transformer结构和对多模态信息的更好利用,提高视频描述生成的质量。
技术关键词
解码器
生成方法
运动特征
视频
融合注意力机制
多模态特征
多头注意力机制
损失函数优化
多模态信息
自然语言生成技术
掩码矩阵
文本
时序依赖关系
自动语音识别
超参数
置信度阈值
系统为您推荐了相关专利信息
电力负荷识别方法
数据缺失值
填充方法
有功功率
编码器
人体三维姿态估计
多视角
人体关键点
视频流同步
相机标定
图像识别方法
图像块
可执行程序代码
编码特征
样本