多模态视频生成方法、系统、存储介质及电子设备

AITNT
正文
推荐专利
多模态视频生成方法、系统、存储介质及电子设备
申请号:CN202410749689
申请日期:2024-06-12
公开号:CN118338098B
公开日期:2024-09-13
类型:发明专利
摘要
本发明提供一种多模态视频生成方法、系统、存储介质及电子设备,包括:获取目标视频的描述文本信息的文本特征和语音特征;获取目标视频的时长信息和分辨率信息;基于文本特征和时长信息生成文本池化特征;基于语音特征和时长信息生成语音预测特征;将文本池化特征作为Q向量,将语音预测特征作为K向量和V向量,进行交叉注意力机制处理;将交叉注意力机制处理的输出作为Q向量,将语音预测特征作为K向量和V向量,重复进行预设次数的交叉注意力机制处理,获取交叉注意力特征;基于交叉注意力特征和分辨率信息生成目标视频。本发明的多模态视频生成方法、系统、存储介质及电子设备能够基于多模态信息实现视频的生成,从而满足个性化的需求。
技术关键词
视频生成方法 交叉注意力机制 预测特征 语音特征 池化特征 分辨率 生成语音 电子设备 解码矩阵 模块 视频生成系统 解码器 多模态信息 文本编码器 存储计算机程序
系统为您推荐了相关专利信息
1
基于多模态交互的翻译方法和系统
文本 多模态交互 翻译方法 语音信号特征 音频特征
2
一种时空数据预测方法、系统、电子设备、存储介质
时空数据预测方法 时空数据预测模型 脉冲 上采样 预测特征
3
一种基于多广度Transformer的航迹预测方法
注意力 航迹预测方法 嵌入特征 预测特征 前馈神经网络
4
一种基于纳米孔测序的糖基化RNA修饰鉴定模型构建方法和系统
模型构建方法 纳米孔 二代测序数据 信号特征 电流
5
基于用户行为的AR广告效果评估系统
多模态情感分析 评估系统 情感类别 Softmax函数 语音情感分析
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号