摘要
本发明提供了一种情感同步的2D数字人模型训练方法、装置,涉及2D数字人技术领域,该方法通过生成包含多种表情和情绪的音频和视频数据集,利用LivePortrait模型和声音克隆技术,以及hallo2模型,实现了数字人口型与输入音频的精确对齐,同时保持与音频情绪一致的面部表情。同时在模型训练阶段使用了情感分类器,提高了推理速度;并设计了表情损失函数和口型损失函数,优化模型训练过程,确保数字人的表情和口型能准确反映输入音频的情绪。旨在提高2D数字人在语音交流中的表情自然度和真实感,确保数字人的表情与音频中的情绪同步。
技术关键词
模型训练方法
情感分类器
声音克隆技术
生成训练图像
图像解码器
音频编码器
图像编码器
视频帧
人脸表情
情感特征
模型训练装置
数据
表达式
真实感
数学
系统为您推荐了相关专利信息
震颤
分类模型训练方法
数据
机器可读指令
分类方法
局部放电信号识别
模型训练方法
数据生成模型
记忆
定义
模型训练方法
加速卡
客户端
服务端
模型训练装置