一种用于视频字幕生成的跨模态结构对齐方法及系统

AITNT
正文
推荐专利
一种用于视频字幕生成的跨模态结构对齐方法及系统
申请号:CN202511273485
申请日期:2025-09-08
公开号:CN120997742A
公开日期:2025-11-21
类型:发明专利
摘要
本发明提供了一种用于视频字幕生成的跨模态结构对齐方法及系统,属于视频字幕生成技术领域。为了解决现有注意力机制中未考虑多模态或语言生成场景下的结构兼容性,且在模态融合过程中会产生噪声的问题。本发明考虑了多模态或语言生成场景下的结构兼容性,可以减少文本特征在和视觉特征融合之后特征损失,减少模态融合产生的噪声,缓解跨模态融合在语义映射空间的天然失配,进而提升模型对高阶语义关系的建模能力以及减少多模态融合后产生的负面影响。
技术关键词
视觉特征 对齐方法 字幕 文本 视频 生成场景 矩阵 对齐系统 语义 可读存储介质 多模态 生成技术 编码器 注意力机制 非线性 跨模态 计算机 噪声
系统为您推荐了相关专利信息
1
一种医学影像报告文本生成模型训练方法及装置
文本生成模型 报告 图像编码器 标记 图像特征向量
2
基于健康管理信息推送的用户画像文本生成方法及系统
健康管理信息 健康管理服务平台 健康管理数据 特征提取模型 生理
3
一种多媒体数据采集方法及系统
多媒体 音视频编解码技术 图像处理模块 数据储存模块 异常数据检测
4
异常对象确定方法、装置、设备、介质以及产品
资源供应 异常对象 特征提取方式 训练样本数据 列表
5
基于大语言模型的图表替代文本质量自动评估方法及系统
图表 自动评估方法 文本 大语言模型 视觉障碍用户
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号