摘要
本发明提供了一种用于视频字幕生成的跨模态结构对齐方法及系统,属于视频字幕生成技术领域。为了解决现有注意力机制中未考虑多模态或语言生成场景下的结构兼容性,且在模态融合过程中会产生噪声的问题。本发明考虑了多模态或语言生成场景下的结构兼容性,可以减少文本特征在和视觉特征融合之后特征损失,减少模态融合产生的噪声,缓解跨模态融合在语义映射空间的天然失配,进而提升模型对高阶语义关系的建模能力以及减少多模态融合后产生的负面影响。
技术关键词
视觉特征
对齐方法
字幕
文本
视频
生成场景
矩阵
对齐系统
语义
可读存储介质
多模态
生成技术
编码器
注意力机制
非线性
跨模态
计算机
噪声
系统为您推荐了相关专利信息
文本生成模型
报告
图像编码器
标记
图像特征向量
健康管理信息
健康管理服务平台
健康管理数据
特征提取模型
生理
多媒体
音视频编解码技术
图像处理模块
数据储存模块
异常数据检测
资源供应
异常对象
特征提取方式
训练样本数据
列表
图表
自动评估方法
文本
大语言模型
视觉障碍用户