一种基于语音驱动的唇型生成方法、设备及介质

AITNT
正文
推荐专利
一种基于语音驱动的唇型生成方法、设备及介质
申请号:CN202510480512
申请日期:2025-04-17
公开号:CN120708647A
公开日期:2025-09-26
类型:发明专利
摘要
本申请提供了一种基于语音驱动的唇型生成方法、设备及介质,涉及计算机视觉领域,方法包括:获取原始目标视频的音频信号;构建音频‑表情系数映射网络;将音频信号输入音频‑表情系数映射网络进行训练,得到目标人物的混合变形系数;音频‑表情系数映射网络包括:特征提取模块、自注意力增强模块以及个性化表情转换模块;构建目标人物的3D渲染面部图像;对3D渲染面部图像进行神经纹理映射,生成特征图;通过特征图,渲染3D渲染面部图像的嘴部区域,得到高分辨率的嘴部渲染图像;通过高分辨率的嘴部渲染图像,结合背景合成网络,得到基于语音驱动的唇型生成视频。本申请的技术方案能够显著降低训练成本,并有效解决静默音时的唇形抖动。
技术关键词
面部 生成方法 特征提取模块 语音 图像 音频特征 生成特征 人脸模型 多尺度卷积核 视频 动态变化特征 时间滤波器 网络接口 注意力 动态纹理 可读存储介质
系统为您推荐了相关专利信息
1
基于图像识别的机器人抓取对象选择方法
机器人抓取 对象 机器人视觉识别 深度相机 阈值分割算法
2
基于边缘检测的拍照清晰度识别方法及系统
像素点 边缘检测 图像 识别方法 序列
3
一种基于视觉SLAM的水下实时的目标检测方法
直方图均衡化 自主识别系统 像素 轨迹误差 非局部均值滤波
4
一种基于分层贝叶斯表示的自监督图像盲去模糊方法
图像盲去模糊方法 深度神经网络 分层 退化模型 解码器结构
5
一种变重力条件下的情绪快速评估方法及装置
情绪识别模型 脑电特征 视频 数据 面部表情特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号