一种基于双向Transformer的多模态视频描述生成方法

AITNT
正文
推荐专利
一种基于双向Transformer的多模态视频描述生成方法
申请号:CN202510611366
申请日期:2025-05-13
公开号:CN120544093A
公开日期:2025-08-26
类型:发明专利
摘要
本发明涉及视频处理与自然语言生成技术领域,且公开了一种基于双向Transformer的多模态视频描述生成方法,包括以下步骤:多模态特征提取:分别提取视频的图像特征、运动特征、语音转录文本特征和目标区域特征,并将各特征映射至统一维度;双向解码器处理:利用正向解码器和反向解码器构成的双向Transformer架构,将多模态特征分别输入正向解码器和反向解码器,通过多模态融合注意力机制和多头注意力机制实现多模态信息交互建模;损失函数优化:计算反向解码器和正向解码器的交叉熵损失,并通过预设超参数平衡两者权重。该基于双向Transformer的多模态视频描述生成方法的目的是通过双向Transformer结构和对多模态信息的更好利用,提高视频描述生成的质量。
技术关键词
解码器 生成方法 运动特征 视频 融合注意力机制 多模态特征 多头注意力机制 损失函数优化 多模态信息 自然语言生成技术 掩码矩阵 文本 时序依赖关系 自动语音识别 超参数 置信度阈值
系统为您推荐了相关专利信息
1
剧本预演处理方法、装置、计算机设备和存储介质
脚本 文本 场景 元素 参数
2
一种基于迁移学习的电力负荷识别方法与系统
电力负荷识别方法 数据缺失值 填充方法 有功功率 编码器
3
一种基于多视角场景下的人体三维姿态估计方法、系统、终端及存储介质
人体三维姿态估计 多视角 人体关键点 视频流同步 相机标定
4
图像识别方法及相关装置
图像识别方法 图像块 可执行程序代码 编码特征 样本
5
表情包生成方法、装置、设备以及存储介质
生成表情 长宽比 大语言模型 图片 生成提示词
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号