摘要
本发明提供一种视频内容修改方法、装置、电子设备及存储介质,涉及多媒体技术领域,该方法包括:提取原始视频中目标人物的初始音频,根据初始音频提取目标人声和音频文本;修改音频文本获得目标文本,根据目标文本和目标人声合成目标音频;根据目标音频录制面部口型视频,获得驱动视频;根据驱动视频和目标音频进行口型校准,获得标准驱动视频;将标准驱动视频和原始视频输入隐式关键点驱动模型,获得合成视频。本发明通过录制面部驱动视频来提供自然的口型、表情和头部姿态,使得生成的视频在口型方面更加逼真和流畅,确保最终的视频效果更加符合期望,驱动视频和音频通过在隐空间内进行推理和训练,提高了视频生成的速度和质量。
技术关键词
音频
修改方法
人声
文本
动作特征
驱动特征
视频时空特征
时空特征信息
视频特征向量
时间偏移量
关键点
图片
视频校准
语音识别模型
面部
电子设备
降噪模型
音视频
系统为您推荐了相关专利信息
智能合约代码
自然语言
区块链智能合约
计算机执行指令
索引
人体运动姿态
多路径效应
指数
数据采集系统
GNSS数据
识别定位方法
喂食机械臂
DS18B20温度传感器
嵌入式处理器
双目相机