摘要
本发明提供一种多模态视频生成方法、系统、存储介质及电子设备,包括:获取目标视频的描述文本信息的文本特征和语音特征;获取目标视频的时长信息和分辨率信息;基于文本特征和时长信息生成文本池化特征;基于语音特征和时长信息生成语音预测特征;将文本池化特征作为Q向量,将语音预测特征作为K向量和V向量,进行交叉注意力机制处理;将交叉注意力机制处理的输出作为Q向量,将语音预测特征作为K向量和V向量,重复进行预设次数的交叉注意力机制处理,获取交叉注意力特征;基于交叉注意力特征和分辨率信息生成目标视频。本发明的多模态视频生成方法、系统、存储介质及电子设备能够基于多模态信息实现视频的生成,从而满足个性化的需求。
技术关键词
视频生成方法
交叉注意力机制
预测特征
语音特征
池化特征
分辨率
生成语音
电子设备
解码矩阵
模块
视频生成系统
解码器
多模态信息
文本编码器
存储计算机程序
系统为您推荐了相关专利信息
文本
多模态交互
翻译方法
语音信号特征
音频特征
时空数据预测方法
时空数据预测模型
脉冲
上采样
预测特征
注意力
航迹预测方法
嵌入特征
预测特征
前馈神经网络
模型构建方法
纳米孔
二代测序数据
信号特征
电流
多模态情感分析
评估系统
情感类别
Softmax函数
语音情感分析