一种用于视频字幕生成的跨模态结构对齐方法及系统

正文

推荐专利

申请号：CN202511273485

申请日期：2025-09-08

公开号：CN120997742A

公开日期：2025-11-21

类型：发明专利

摘要

本发明提供了一种用于视频字幕生成的跨模态结构对齐方法及系统，属于视频字幕生成技术领域。为了解决现有注意力机制中未考虑多模态或语言生成场景下的结构兼容性，且在模态融合过程中会产生噪声的问题。本发明考虑了多模态或语言生成场景下的结构兼容性，可以减少文本特征在和视觉特征融合之后特征损失，减少模态融合产生的噪声，缓解跨模态融合在语义映射空间的天然失配，进而提升模型对高阶语义关系的建模能力以及减少多模态融合后产生的负面影响。

技术关键词

视觉特征对齐方法字幕文本视频生成场景矩阵对齐系统语义可读存储介质多模态生成技术编码器注意力机制非线性跨模态计算机噪声

系统为您推荐了相关专利信息

一种医学影像报告文本生成模型训练方法及装置

文本生成模型报告图像编码器标记图像特征向量

基于健康管理信息推送的用户画像文本生成方法及系统

健康管理信息健康管理服务平台健康管理数据特征提取模型生理

一种多媒体数据采集方法及系统

多媒体音视频编解码技术图像处理模块数据储存模块异常数据检测

异常对象确定方法、装置、设备、介质以及产品

资源供应异常对象特征提取方式训练样本数据列表

基于大语言模型的图表替代文本质量自动评估方法及系统

图表自动评估方法文本大语言模型视觉障碍用户

一种用于视频字幕生成的跨模态结构对齐方法及系统

站点导航

APP 下载