基于声音克隆的数字人口唇训练方法、装置、设备及介质

AITNT
正文
推荐专利
基于声音克隆的数字人口唇训练方法、装置、设备及介质
申请号:CN202411754646
申请日期:2024-11-29
公开号:CN119541531A
公开日期:2025-02-28
类型:发明专利
摘要
本发明属于人工智能技术领域,公开了一种基于声音克隆的数字人口唇训练方法、装置、设备及介质,所述方法包括:获取预训练的多模态语音模型以及待克隆的文本数据,并将目标对象的第二语音数据和待克隆的文本数据输入至预训练的多模态语音模型中进行训练,生成克隆语音数据;基于构建的目标对象的语音数据与口唇动作之间的映射关系,构建数字人口唇动作预测模型;将生成的克隆语音数据输入至数字人口唇动作预测模型中,预测数字人口唇动作的各项参数信息;基于预测的数字人口唇动作的各项参数信息,驱动数字人模拟目标对象输出克隆语音数据时呈现的口唇动作。本发明有效的提高了数字人口唇训练的准确率。
技术关键词
动作预测模型 语音 数据 对象 情感特征 文本 语义特征 视频 视觉特征提取 跨模态 关系 可读存储介质 人工智能技术 处理器 训练装置 模块 计算机设备 存储器
系统为您推荐了相关专利信息
1
地球同步轨道合成孔径雷达抑制运动目标的成像方法及装置
成像方法 合成孔径雷达 回波 图像 网格
2
一种混凝土数字化管理控制系统
混凝土原材料 管理控制系统 子模块 变量 Attention机制
3
含倒转地层的地层层序统一处理方法及系统
钻孔 标记 三维地层模型 编码 分层
4
一种智慧文旅大数据舆情监测分析系统及方法
监测分析系统 人工智能模型 关键词 标记 曲线斜率
5
一种PCM音频采样率的升降控制方法及系统
采样率 蓝牙音频设备 格式音频数据 信号特征 音频输出模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号