摘要
本发明公开了一种基于多模态大模型反馈机制的高拟真音频驱动人物表情生成方法,旨在通过大模型的反馈机制显著提升表情生成的精度和自然度。该方法首先通过多尺度语音特征提取,生成包括音频细节特征向量和全局语义向量的多维特征表示,确保声音信息的完整捕捉;之后,基于输入图像构建初步的三维人脸几何模型;接着,利用音频数据驱动三维人脸几何模型,使其生成初始表情;最后,通过大模型的反馈机制,在特定间隔步对表情生成进行优化;本发明通过引入多模态大模型反馈机制,有效提升了表情生成的逼真度、情感传达的自然度以及模型与输入信号之间的匹配度,广泛适用于虚拟角色动画、电影特效、游戏角色驱动等领域,具有重要的应用价值。
技术关键词
表情生成方法
语义向量
多模态
语音特征提取
三维头部模型
多分辨率滤波器组
音频特征
多尺度注意力机制
高频特征
指标
计算方法
人脸表情图像
短时傅里叶变换
皮尔逊相关系数