摘要
本发明提供了一种跨模态语义注意力协同增强的视频字幕生成方法及系统,属于视频字幕生成领域。为了解决现有视频描述模型在注意力机制层面多停留在一阶关系建模、难以捕捉高阶语义依赖以及多模态特征融合易引入噪声的问题。本发明提出了跨模态语义注意力协同增强模块,该模块包含注意力增强的上下文语义调制与跨模态结构对齐两个关键组件,通过动态调制注意力权重和优化模态对齐结构,有效提升了生成模型对视觉与文本语义的精细建模能力。基于非自回归粗到细视频描述模型进行集成。实验结果表明,本发明方法能够在保持模型规模和计算开销基本不变的前提下,显著提高视频描述生成的准确性和多样性。
技术关键词
视频字幕生成方法
语义注意力
视觉特征
跨模态
解码器
文本
序列
矩阵
语句
多模态特征融合
注意力机制
语言编码器
编码器特征
模块
可读存储介质
系统为您推荐了相关专利信息
攻击检测方法
网络流量数据
检测网络流量
攻击检测系统
深度编码器
双极化SAR图像
反演方法
低分辨率编码器
构建高分辨率
后向散射系数