一种基于语音驱动的唇型生成方法、设备及介质

正文

推荐专利

申请号：CN202510480512

申请日期：2025-04-17

公开号：CN120708647A

公开日期：2025-09-26

类型：发明专利

摘要

本申请提供了一种基于语音驱动的唇型生成方法、设备及介质，涉及计算机视觉领域，方法包括：获取原始目标视频的音频信号；构建音频‑表情系数映射网络；将音频信号输入音频‑表情系数映射网络进行训练，得到目标人物的混合变形系数；音频‑表情系数映射网络包括：特征提取模块、自注意力增强模块以及个性化表情转换模块；构建目标人物的3D渲染面部图像；对3D渲染面部图像进行神经纹理映射，生成特征图；通过特征图，渲染3D渲染面部图像的嘴部区域，得到高分辨率的嘴部渲染图像；通过高分辨率的嘴部渲染图像，结合背景合成网络，得到基于语音驱动的唇型生成视频。本申请的技术方案能够显著降低训练成本，并有效解决静默音时的唇形抖动。

技术关键词

面部生成方法特征提取模块语音图像音频特征生成特征人脸模型多尺度卷积核视频动态变化特征时间滤波器网络接口注意力动态纹理可读存储介质

系统为您推荐了相关专利信息

基于图像识别的机器人抓取对象选择方法

机器人抓取对象机器人视觉识别深度相机阈值分割算法

基于边缘检测的拍照清晰度识别方法及系统

像素点边缘检测图像识别方法序列

一种基于视觉SLAM的水下实时的目标检测方法

直方图均衡化自主识别系统像素轨迹误差非局部均值滤波

一种基于分层贝叶斯表示的自监督图像盲去模糊方法

图像盲去模糊方法深度神经网络分层退化模型解码器结构

一种变重力条件下的情绪快速评估方法及装置

情绪识别模型脑电特征视频数据面部表情特征

一种基于语音驱动的唇型生成方法、设备及介质

站点导航

APP 下载