一种基于隐音素检索的数字人口型多样性增强方法

正文

推荐专利

申请号：CN202411376512

申请日期：2024-09-30

公开号：CN118921516B

公开日期：2025-01-24

类型：发明专利

摘要

本发明属于数字人口型动画合成技术领域，具体涉及一种基于隐音素检索的数字人口型多样性增强方法，用以增强数字人口型动画的真实性和多样性。具体而言，在传统的音素‑视素匹配方案中，由于音素和视素的类别数量受限于人为定义，导致从语音中提取的音素无法充分捕捉发音过程中的细微动态变化，进而影响了口型动画的自然流畅性。为了克服这一局限，本发明采用深度学习技术，对数字人的音视频素材进行预处理、特征提取，并构建了一个隐音素‑视素库。在实时交互中，通过音频隐音素的检索和匹配，实现了数字人口型动画的逼真和连贯性。本发明的优势在于其能够不断优化迭代，提高口型动画的连贯性和真实感。

技术关键词

深度音频特征音频处理过程动画发音口型编码器图片序列数据视频帧系统响应时间生成特征向量动态真实感深度学习技术生成代表机制聚类算法

系统为您推荐了相关专利信息

用於增强交叉分量线性模型参数的计算的稳健性的编码器、解码器和方法

交叉分量线性模型解码器编码器参数

一种基于知识重构的电力设备知识图谱错误检测方法及系统

电力设备图谱三元组错误检测方法结构编码器

图像翻拍识别方法、装置、计算机设备和存储介质

翻拍图像分子识别方法图像翻拍识别计算机设备

基于SAD-Net网络的频域图像去雾方法、系统、介质、程序产品及终端

图像去雾方法 Sigmoid函数图像去雾模型小波变换处理去雾图像

一种票据识别方法、装置、设备、存储介质及程序产品

图像文本票据识别方法计算机执行指令视觉

一种基于隐音素检索的数字人口型多样性增强方法

站点导航

APP 下载