一种语音驱动的时效性强的数字人口型合成算法

正文

推荐专利

申请号：CN202510191234

申请日期：2025-02-20

公开号：CN120128763A

公开日期：2025-06-10

类型：发明专利

摘要

本发明涉及一种语音驱动的时效性强的数字人口型合成算法，本发明通过引入lip‑reading expert和预训练视频自动编码器作为监督，精心设计的特征融合模块和训练损失函数等技巧来提高数字人口型合成的效果，通过逐通道卷积、线性注意力等技巧来提高数字人口型合成的速度。并且具备可控张嘴幅度和多语言支持的功能。

技术关键词

音频特征时效性图像编码器音频编码器生成对抗网络注意力语音图像解码器算法表达式自动编码器多模态信息融合短视频人脸关键点模块画面

系统为您推荐了相关专利信息

基于时间衰减与动态权重的非货币资源流通方法及系统

补偿智能资源匹配模型动态账户指令

基于多尺度特征学习的语音增强方法、装置、设备及介质

多尺度特征学习多尺度卷积神经网络频域特征频谱特征语音

一种基于特征映射的审核规则阈值动态推荐方法、系统、设备及介质

动态推荐方法审核规则生成对抗网络多模态特征融合文本特征向量

适用多场景模式的AI可视化音视频软件管理系统

多场景模式软件管理系统对音视频可视化工具标签

一种多组分数字岩心重构方法、装置、设备及介质

生成对抗网络模型数字岩心重构方法多组分结构岩心图像样本

一种语音驱动的时效性强的数字人口型合成算法

站点导航

APP 下载