基于声音克隆的数字人口唇训练方法、装置、设备及介质

正文

推荐专利

申请号：CN202411754646

申请日期：2024-11-29

公开号：CN119541531A

公开日期：2025-02-28

类型：发明专利

摘要

本发明属于人工智能技术领域，公开了一种基于声音克隆的数字人口唇训练方法、装置、设备及介质，所述方法包括：获取预训练的多模态语音模型以及待克隆的文本数据，并将目标对象的第二语音数据和待克隆的文本数据输入至预训练的多模态语音模型中进行训练，生成克隆语音数据；基于构建的目标对象的语音数据与口唇动作之间的映射关系，构建数字人口唇动作预测模型；将生成的克隆语音数据输入至数字人口唇动作预测模型中，预测数字人口唇动作的各项参数信息；基于预测的数字人口唇动作的各项参数信息，驱动数字人模拟目标对象输出克隆语音数据时呈现的口唇动作。本发明有效的提高了数字人口唇训练的准确率。

技术关键词

动作预测模型语音数据对象情感特征文本语义特征视频视觉特征提取跨模态关系可读存储介质人工智能技术处理器训练装置模块计算机设备存储器

系统为您推荐了相关专利信息

地球同步轨道合成孔径雷达抑制运动目标的成像方法及装置

成像方法合成孔径雷达回波图像网格

一种混凝土数字化管理控制系统

混凝土原材料管理控制系统子模块变量 Attention机制

含倒转地层的地层层序统一处理方法及系统

钻孔标记三维地层模型编码分层

一种智慧文旅大数据舆情监测分析系统及方法

监测分析系统人工智能模型关键词标记曲线斜率

一种PCM音频采样率的升降控制方法及系统

采样率蓝牙音频设备格式音频数据信号特征音频输出模块

基于声音克隆的数字人口唇训练方法、装置、设备及介质

站点导航

APP 下载