多模态视频生成方法、系统、存储介质及电子设备

正文

推荐专利

申请号：CN202410749689

申请日期：2024-06-12

公开号：CN118338098B

公开日期：2024-09-13

类型：发明专利

摘要

本发明提供一种多模态视频生成方法、系统、存储介质及电子设备，包括：获取目标视频的描述文本信息的文本特征和语音特征；获取目标视频的时长信息和分辨率信息；基于文本特征和时长信息生成文本池化特征；基于语音特征和时长信息生成语音预测特征；将文本池化特征作为Q向量，将语音预测特征作为K向量和V向量，进行交叉注意力机制处理；将交叉注意力机制处理的输出作为Q向量，将语音预测特征作为K向量和V向量，重复进行预设次数的交叉注意力机制处理，获取交叉注意力特征；基于交叉注意力特征和分辨率信息生成目标视频。本发明的多模态视频生成方法、系统、存储介质及电子设备能够基于多模态信息实现视频的生成，从而满足个性化的需求。

技术关键词

视频生成方法交叉注意力机制预测特征语音特征池化特征分辨率生成语音电子设备解码矩阵模块视频生成系统解码器多模态信息文本编码器存储计算机程序

系统为您推荐了相关专利信息

基于多模态交互的翻译方法和系统

文本多模态交互翻译方法语音信号特征音频特征

一种时空数据预测方法、系统、电子设备、存储介质

时空数据预测方法时空数据预测模型脉冲上采样预测特征

一种基于多广度Transformer的航迹预测方法

注意力航迹预测方法嵌入特征预测特征前馈神经网络

一种基于纳米孔测序的糖基化RNA修饰鉴定模型构建方法和系统

模型构建方法纳米孔二代测序数据信号特征电流

基于用户行为的AR广告效果评估系统

多模态情感分析评估系统情感类别 Softmax函数语音情感分析

多模态视频生成方法、系统、存储介质及电子设备

站点导航

APP 下载