一种讲话视频合成方法和系统

正文

推荐专利

一种讲话视频合成方法和系统

申请号：CN202510829816

申请日期：2025-06-20

公开号：CN120751075A

公开日期：2025-10-03

类型：发明专利

摘要

本发明提供了一种讲话视频合成方法和系统，该方法包括：将讲话音频输入预训练的音频‑动作编码器，以从讲话音频提取语音特征序列以及根据语音特征序列生成面部的动作序列；将从第一视角拍摄的单张二维人脸图片输入预训练的图片编码器，提取该人脸图片所含对象的三维身份特征；将三维身份特征和情绪标签输入预训练的情绪映射层，融合得到含情绪的三维身份特征；将动作序列和含情绪的三维身份特征输入基于神经辐射场的视频生成网络，通过神经辐射场和相机参数，来合成所需第二视角的、与所述讲话音频相匹配的所述对象的讲话视频，其中，通过相机参数能在预定范围内调整第二视角。

技术关键词

语音特征情绪特征视频序列身份人脸图片音频编码器视角语音识别模型参数图像标签相机面部对象重建人脸

一种讲话视频合成方法和系统

站点导航

APP 下载