摘要
本发明属于人工智能技术领域,公开了一种基于声音克隆的数字人口唇训练方法、装置、设备及介质,所述方法包括:获取预训练的多模态语音模型以及待克隆的文本数据,并将目标对象的第二语音数据和待克隆的文本数据输入至预训练的多模态语音模型中进行训练,生成克隆语音数据;基于构建的目标对象的语音数据与口唇动作之间的映射关系,构建数字人口唇动作预测模型;将生成的克隆语音数据输入至数字人口唇动作预测模型中,预测数字人口唇动作的各项参数信息;基于预测的数字人口唇动作的各项参数信息,驱动数字人模拟目标对象输出克隆语音数据时呈现的口唇动作。本发明有效的提高了数字人口唇训练的准确率。
技术关键词
动作预测模型
语音
数据
对象
情感特征
文本
语义特征
视频
视觉特征提取
跨模态
关系
可读存储介质
人工智能技术
处理器
训练装置
模块
计算机设备
存储器
系统为您推荐了相关专利信息
混凝土原材料
管理控制系统
子模块
变量
Attention机制
监测分析系统
人工智能模型
关键词
标记
曲线斜率
采样率
蓝牙音频设备
格式音频数据
信号特征
音频输出模块