基于多模态输入的视频生成方法、装置及系统

AITNT
正文
推荐专利
基于多模态输入的视频生成方法、装置及系统
申请号:CN202411104296
申请日期:2024-08-13
公开号:CN118646940A
公开日期:2024-09-13
类型:发明专利
摘要
本发明公开了一种基于多模态输入的视频生成方法、装置及系统,该方法包括:接收用户的多模态输入;利用多模态输入获得用户输入的文本描述;利用文本描述生成目标字幕和对应的目标音频;根据文本描述生成多维度的第一嵌入向量表示;利用第一嵌入向量表示在预存的数据库中搜索匹配出至少一个目标视频素材;利用目标字幕、目标音频以及目标视频素材合成视频。利用本申请的技术方案,用户可以通过不同的交互方式轻松制作视频,与传统的只能以文字输入生成视频相比,本申请为用户提供了更多的交互选择,既能以文字输入生成视频,也能以诸如图像、视频以及语音的输入来生成视频,还可以结合多种输入来生成视频,视频质量以及稳定性均更高。
技术关键词
视频生成方法 多模态 视频图像特征 文本 视频生成装置 音频 转换单元 梅尔频率倒谱系数 语义特征 字幕 视频编码器 视频生成系统 语音特征 注意力机制 匹配模块 序列
系统为您推荐了相关专利信息
1
一种自动化内容生成方法、装置、电子设备及存储介质
内容生成方法 深度语义分析 风格 图像 深度学习模型
2
可行驶区域的检测方法、系统、设备及可读存储介质
融合特征 非结构化道路 多任务 模态特征 文本
3
基于跨模态对齐的舆情数据关键样本提取方法、系统、介质和产品
样本提取方法 跨模态 多模态 编码技术 标签
4
一种燃气量预测方法、装置、电子设备及存储介质
文本 时序 燃气 数据 时间段
5
一种语言数据处理方法、系统、终端设备及存储介质
语言数据处理方法 多轮对话 锚点 文本 意图
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号