摘要
本发明提供一种对话式多媒体内容生成方法、系统,通过预训练的大语言模型对标准文本进行语义理解和意图分析,以判断输入指令为检索指令还是编辑指令;若输入指令为检索指令,则将文本单元输入至预设的视频检索模型中,以使视频检索模型反馈出与所述文本单元相适配的目标视频;若输入指令为编辑指令,则对标准文本进行相似度匹配,以获取编辑模式,并采用编辑模式依次对用户预选定的待编辑视频进行视频抠像、视频调和、视频分割、视频修复、音频生成和口型生成等类型的编辑处理以获取多媒体生成内容,如此,使得多媒体内容编辑变得智能化,能够大大降低多媒体编辑的门槛,为用户提供更加便捷、高效的编辑体验。
技术关键词
文本
视频
编辑
指令
编码器模块
多尺度特征
大语言模型
引导滤波器
多媒体
序列
模式
内容生成系统
代表
生成高分辨率
透明度
解码器
概率分布函数
匹配模块