一种讲话视频合成方法和系统

AITNT
正文
推荐专利
一种讲话视频合成方法和系统
申请号:CN202510829816
申请日期:2025-06-20
公开号:CN120751075A
公开日期:2025-10-03
类型:发明专利
摘要
本发明提供了一种讲话视频合成方法和系统,该方法包括:将讲话音频输入预训练的音频‑动作编码器,以从讲话音频提取语音特征序列以及根据语音特征序列生成面部的动作序列;将从第一视角拍摄的单张二维人脸图片输入预训练的图片编码器,提取该人脸图片所含对象的三维身份特征;将三维身份特征和情绪标签输入预训练的情绪映射层,融合得到含情绪的三维身份特征;将动作序列和含情绪的三维身份特征输入基于神经辐射场的视频生成网络,通过神经辐射场和相机参数,来合成所需第二视角的、与所述讲话音频相匹配的所述对象的讲话视频,其中,通过相机参数能在预定范围内调整第二视角。
技术关键词
语音特征 情绪特征 视频 序列 身份 人脸图片 音频编码器 视角 语音识别模型 参数 图像 标签 相机 面部 对象 重建人脸
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号