语音驱动的数字人视频生成方法和装置

AITNT
正文
推荐专利
语音驱动的数字人视频生成方法和装置
申请号:CN202510213146
申请日期:2025-02-25
公开号:CN120034706A
公开日期:2025-05-23
类型:发明专利
摘要
本申请实施例公开了一种语音驱动的数字人视频生成方法和装置,用以提高语音驱动的数字人视频的生成质量。方法包括:获取驱动语音和人物参考图像;将所述驱动语音和所述人物参考图像输入数字人视频生成模型,得到连续视频帧,其中,所述数字人视频生成模型是基于人物视频的人物参考图像和音频构建的训练样本和基于所述人物视频的连续视频帧构建的训练标签训练得到的;对所述驱动语音和所述连续视频帧执行音视频编码,得到数字人视频。
技术关键词
视频生成模型 视频帧特征 音频 序列 视频生成方法 标签 图像解码器 图像编码器 人脸关键点提取 坐标 计算机程序产品 语音特征 注意力
系统为您推荐了相关专利信息
1
一种语音识别音字同步的方法及装置
文本 实时语音 离散傅立叶变换 语音识别模型 特征提取算法
2
公路隧道资产定位方法及电子设备
关键点 机电设备 坐标转换算法 资产定位方法 指针
3
一种避免上电开机时耳机产生POP破音的电路
耳机接口 延时开关电路 延迟开关电路 RC延时电路 主控芯片
4
一种基于多模态数据融合的运动训练推荐方法及系统
运动训练 多模态数据融合 推荐方法 知识图谱嵌入方法 静态特征
5
用于多音源音频混音的方法和装置
轨道 音效 音源设备 场景 音频混音方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号