一种基于隐音素检索的数字人口型多样性增强方法

AITNT
正文
推荐专利
一种基于隐音素检索的数字人口型多样性增强方法
申请号:CN202411376512
申请日期:2024-09-30
公开号:CN118921516B
公开日期:2025-01-24
类型:发明专利
摘要
本发明属于数字人口型动画合成技术领域,具体涉及一种基于隐音素检索的数字人口型多样性增强方法,用以增强数字人口型动画的真实性和多样性。具体而言,在传统的音素‑视素匹配方案中,由于音素和视素的类别数量受限于人为定义,导致从语音中提取的音素无法充分捕捉发音过程中的细微动态变化,进而影响了口型动画的自然流畅性。为了克服这一局限,本发明采用深度学习技术,对数字人的音视频素材进行预处理、特征提取,并构建了一个隐音素‑视素库。在实时交互中,通过音频隐音素的检索和匹配,实现了数字人口型动画的逼真和连贯性。本发明的优势在于其能够不断优化迭代,提高口型动画的连贯性和真实感。
技术关键词
深度音频特征 音频处理过程 动画 发音口型 编码器 图片 序列 数据 视频帧 系统响应时间 生成特征向量 动态 真实感 深度学习技术 生成代表 机制 聚类算法
系统为您推荐了相关专利信息
1
用於增强交叉分量线性模型参数的计算的稳健性的编码器、解码器和方法
交叉分量线性模型 解码器 编码器 参数
2
一种基于知识重构的电力设备知识图谱错误检测方法及系统
电力设备 图谱 三元组 错误检测方法 结构编码器
3
图像翻拍识别方法、装置、计算机设备和存储介质
翻拍图像 分子 识别方法 图像翻拍识别 计算机设备
4
基于SAD-Net网络的频域图像去雾方法、系统、介质、程序产品及终端
图像去雾方法 Sigmoid函数 图像去雾模型 小波变换处理 去雾图像
5
一种票据识别方法、装置、设备、存储介质及程序产品
图像 文本 票据识别方法 计算机执行指令 视觉
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号