一种跨模态语义注意力协同增强的视频字幕生成方法及系统

AITNT
正文
推荐专利
一种跨模态语义注意力协同增强的视频字幕生成方法及系统
申请号:CN202511273488
申请日期:2025-09-08
公开号:CN121009887A
公开日期:2025-11-25
类型:发明专利
摘要
本发明提供了一种跨模态语义注意力协同增强的视频字幕生成方法及系统,属于视频字幕生成领域。为了解决现有视频描述模型在注意力机制层面多停留在一阶关系建模、难以捕捉高阶语义依赖以及多模态特征融合易引入噪声的问题。本发明提出了跨模态语义注意力协同增强模块,该模块包含注意力增强的上下文语义调制与跨模态结构对齐两个关键组件,通过动态调制注意力权重和优化模态对齐结构,有效提升了生成模型对视觉与文本语义的精细建模能力。基于非自回归粗到细视频描述模型进行集成。实验结果表明,本发明方法能够在保持模型规模和计算开销基本不变的前提下,显著提高视频描述生成的准确性和多样性。
技术关键词
视频字幕生成方法 语义注意力 视觉特征 跨模态 解码器 文本 序列 矩阵 语句 多模态特征融合 注意力机制 语言编码器 编码器特征 模块 可读存储介质
系统为您推荐了相关专利信息
1
一种基于包容性交互碰撞的组合式3D生成方法
大语言模型 生成方法 组合式 布局 物体
2
基于双阶段注意力机制的混凝剂投加串级控制方法
混凝剂投加量 浊度 编码器 注意力机制 解码器
3
一种基于深度学习的DDoS攻击检测方法
攻击检测方法 网络流量数据 检测网络流量 攻击检测系统 深度编码器
4
一种海量多源多模态数据融合方法
数据融合方法 BERT模型 音频 文本 多模态
5
基于深度学习的SAR土壤表层含水量反演方法及装置
双极化SAR图像 反演方法 低分辨率编码器 构建高分辨率 后向散射系数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号