一种跨模态语义注意力协同增强的视频字幕生成方法及系统

正文

推荐专利

申请号：CN202511273488

申请日期：2025-09-08

公开号：CN121009887A

公开日期：2025-11-25

类型：发明专利

摘要

本发明提供了一种跨模态语义注意力协同增强的视频字幕生成方法及系统，属于视频字幕生成领域。为了解决现有视频描述模型在注意力机制层面多停留在一阶关系建模、难以捕捉高阶语义依赖以及多模态特征融合易引入噪声的问题。本发明提出了跨模态语义注意力协同增强模块，该模块包含注意力增强的上下文语义调制与跨模态结构对齐两个关键组件，通过动态调制注意力权重和优化模态对齐结构，有效提升了生成模型对视觉与文本语义的精细建模能力。基于非自回归粗到细视频描述模型进行集成。实验结果表明，本发明方法能够在保持模型规模和计算开销基本不变的前提下，显著提高视频描述生成的准确性和多样性。

技术关键词

视频字幕生成方法语义注意力视觉特征跨模态解码器文本序列矩阵语句多模态特征融合注意力机制语言编码器编码器特征模块可读存储介质

系统为您推荐了相关专利信息

一种基于包容性交互碰撞的组合式3D生成方法

大语言模型生成方法组合式布局物体

基于双阶段注意力机制的混凝剂投加串级控制方法

混凝剂投加量浊度编码器注意力机制解码器

一种基于深度学习的DDoS攻击检测方法

攻击检测方法网络流量数据检测网络流量攻击检测系统深度编码器

一种海量多源多模态数据融合方法

数据融合方法 BERT模型音频文本多模态

基于深度学习的SAR土壤表层含水量反演方法及装置

双极化SAR图像反演方法低分辨率编码器构建高分辨率后向散射系数

一种跨模态语义注意力协同增强的视频字幕生成方法及系统

站点导航

APP 下载