摘要
本申请实施例公开了一种基于参考视频的视频生成方法、装置、计算设备及介质,其中,该方法包括:将参考视频分割为多个参考视频片段,并确定多个参考视频片段的情感类型;获取驱动数据,将驱动数据处理成多个驱动语音片段,并确定多个驱动语音片段的情感类型;依据时长、情感类型以及是否为静音片段,从多个参考视频片段中为每个驱动语音片段确定对应的目标参考视频片段;利用多个驱动语音片段对其对应的目标参考视频片段进行驱动和口型修正,并连接形成目标视频。本申请能够依据短时长的参考视频生成任意时长且虚拟主播动作连贯的目标视频,有效地提高了基于参考视频的虚拟主播语音驱动视频生成的逼真度和动作连贯性。
技术关键词
视频生成方法
语音
表情识别方法
情感分析模型
锚点
变量
文本
视频生成装置
数据
通信接口
通道
处理器
计算机存储介质
音频
指令
视觉
计算机程序产品
存储器
模块
系统为您推荐了相关专利信息
强化学习代理
大语言模型
学习方法
评分机制
指标
对讲模块
门锁装置
对讲功能
语音播放模块
麦克风模块