摘要
本发明公开了基于LSTM‑CBAM的音视频同步人脸视频生成方法,属于图像处理技术领域,包括以下步骤:S1、素材获取,S2、特征提取筛选,S3、关联学习,S4、序列生成,S5、同步性判定,S6、合并输出;通过LSTM‑CBAM音视频同步判别器深度捕捉音频特征与人脸关键点变化的时序关联,结合同步评分反馈机制,有效解决传统技术中音视频同步性差的问题,将音视频同步准确率提升,生成对抗式网络嵌入卷积块注意力,能针对性强化人脸嘴唇、下颌等说话相关区域特征,搭配属性约束层确保生成人脸与原始属性一致,大幅改善现有方法生成视频人物真实感弱、细节质量低的缺陷。
技术关键词
视频生成方法
生成对抗式网络
音视频
MFCC算法
人脸图像信息
同步性
音频编码器
人脸关键点提取
视频编码器
注意力
序列
音频特征数据
高层语义特征
音频特征提取
核心