一种情感同步的2D数字人模型训练方法、装置

正文

推荐专利

申请号：CN202411681867

申请日期：2024-11-22

公开号：CN119598346A

公开日期：2025-03-11

类型：发明专利

摘要

本发明提供了一种情感同步的2D数字人模型训练方法、装置，涉及2D数字人技术领域，该方法通过生成包含多种表情和情绪的音频和视频数据集，利用LivePortrait模型和声音克隆技术，以及hallo2模型，实现了数字人口型与输入音频的精确对齐，同时保持与音频情绪一致的面部表情。同时在模型训练阶段使用了情感分类器，提高了推理速度；并设计了表情损失函数和口型损失函数，优化模型训练过程，确保数字人的表情和口型能准确反映输入音频的情绪。旨在提高2D数字人在语音交流中的表情自然度和真实感，确保数字人的表情与音频中的情绪同步。

技术关键词

模型训练方法情感分类器声音克隆技术生成训练图像图像解码器音频编码器图像编码器视频帧人脸表情情感特征模型训练装置数据表达式真实感数学

系统为您推荐了相关专利信息

一种基于跨模态协同学习的视频生成方法及系统

视频生成方法注意力相机跨模态多模态特征

模型训练方法、应答方法及相关产品

会话文本实体模型训练方法画像

症状分类模型训练方法、症状分类方法和电子设备

震颤分类模型训练方法数据机器可读指令分类方法

局部放电信号识别定位模型训练方法

局部放电信号识别模型训练方法数据生成模型记忆定义

一种嵌入表模型训练方法、装置、设备及存储介质

模型训练方法加速卡客户端服务端模型训练装置

一种情感同步的2D数字人模型训练方法、装置

站点导航

APP 下载