语音驱动的数字人视频生成方法和装置

正文

推荐专利

语音驱动的数字人视频生成方法和装置

申请号：CN202510213146

申请日期：2025-02-25

公开号：CN120034706A

公开日期：2025-05-23

类型：发明专利

摘要

本申请实施例公开了一种语音驱动的数字人视频生成方法和装置，用以提高语音驱动的数字人视频的生成质量。方法包括：获取驱动语音和人物参考图像；将所述驱动语音和所述人物参考图像输入数字人视频生成模型，得到连续视频帧，其中，所述数字人视频生成模型是基于人物视频的人物参考图像和音频构建的训练样本和基于所述人物视频的连续视频帧构建的训练标签训练得到的；对所述驱动语音和所述连续视频帧执行音视频编码，得到数字人视频。

技术关键词

视频生成模型视频帧特征音频序列视频生成方法标签图像解码器图像编码器人脸关键点提取坐标计算机程序产品语音特征注意力

系统为您推荐了相关专利信息

一种语音识别音字同步的方法及装置

文本实时语音离散傅立叶变换语音识别模型特征提取算法

公路隧道资产定位方法及电子设备

关键点机电设备坐标转换算法资产定位方法指针

一种避免上电开机时耳机产生POP破音的电路

耳机接口延时开关电路延迟开关电路 RC延时电路主控芯片

一种基于多模态数据融合的运动训练推荐方法及系统

运动训练多模态数据融合推荐方法知识图谱嵌入方法静态特征

用于多音源音频混音的方法和装置

轨道音效音源设备场景音频混音方法

语音驱动的数字人视频生成方法和装置

站点导航

APP 下载