基于多模态输入的视频生成方法、装置及系统

正文

推荐专利

申请号：CN202411104296

申请日期：2024-08-13

公开号：CN118646940A

公开日期：2024-09-13

类型：发明专利

摘要

本发明公开了一种基于多模态输入的视频生成方法、装置及系统，该方法包括：接收用户的多模态输入；利用多模态输入获得用户输入的文本描述；利用文本描述生成目标字幕和对应的目标音频；根据文本描述生成多维度的第一嵌入向量表示；利用第一嵌入向量表示在预存的数据库中搜索匹配出至少一个目标视频素材；利用目标字幕、目标音频以及目标视频素材合成视频。利用本申请的技术方案，用户可以通过不同的交互方式轻松制作视频，与传统的只能以文字输入生成视频相比，本申请为用户提供了更多的交互选择，既能以文字输入生成视频，也能以诸如图像、视频以及语音的输入来生成视频，还可以结合多种输入来生成视频，视频质量以及稳定性均更高。

技术关键词

视频生成方法多模态视频图像特征文本视频生成装置音频转换单元梅尔频率倒谱系数语义特征字幕视频编码器视频生成系统语音特征注意力机制匹配模块序列

系统为您推荐了相关专利信息

一种自动化内容生成方法、装置、电子设备及存储介质

内容生成方法深度语义分析风格图像深度学习模型

可行驶区域的检测方法、系统、设备及可读存储介质

融合特征非结构化道路多任务模态特征文本

基于跨模态对齐的舆情数据关键样本提取方法、系统、介质和产品

样本提取方法跨模态多模态编码技术标签

一种燃气量预测方法、装置、电子设备及存储介质

文本时序燃气数据时间段

一种语言数据处理方法、系统、终端设备及存储介质

语言数据处理方法多轮对话锚点文本意图

基于多模态输入的视频生成方法、装置及系统

站点导航

APP 下载