一种基于多模态大模型反馈机制的高拟真音频驱动人物表情生成方法

正文

推荐专利

申请号：CN202510388882

申请日期：2025-03-31

公开号：CN120259501A

公开日期：2025-07-04

类型：发明专利

摘要

本发明公开了一种基于多模态大模型反馈机制的高拟真音频驱动人物表情生成方法，旨在通过大模型的反馈机制显著提升表情生成的精度和自然度。该方法首先通过多尺度语音特征提取，生成包括音频细节特征向量和全局语义向量的多维特征表示，确保声音信息的完整捕捉；之后，基于输入图像构建初步的三维人脸几何模型；接着，利用音频数据驱动三维人脸几何模型，使其生成初始表情；最后，通过大模型的反馈机制，在特定间隔步对表情生成进行优化；本发明通过引入多模态大模型反馈机制，有效提升了表情生成的逼真度、情感传达的自然度以及模型与输入信号之间的匹配度，广泛适用于虚拟角色动画、电影特效、游戏角色驱动等领域，具有重要的应用价值。

技术关键词

表情生成方法语义向量多模态语音特征提取三维头部模型多分辨率滤波器组音频特征多尺度注意力机制高频特征指标计算方法人脸表情图像短时傅里叶变换皮尔逊相关系数

一种基于多模态大模型反馈机制的高拟真音频驱动人物表情生成方法

站点导航

APP 下载