基于LSTM-CBAM的音视频同步人脸视频生成方法

正文

推荐专利

申请号：CN202511171822

申请日期：2025-08-21

公开号：CN120881362A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了基于LSTM‑CBAM的音视频同步人脸视频生成方法，属于图像处理技术领域，包括以下步骤：S1、素材获取，S2、特征提取筛选，S3、关联学习，S4、序列生成，S5、同步性判定，S6、合并输出；通过LSTM‑CBAM音视频同步判别器深度捕捉音频特征与人脸关键点变化的时序关联，结合同步评分反馈机制，有效解决传统技术中音视频同步性差的问题，将音视频同步准确率提升，生成对抗式网络嵌入卷积块注意力，能针对性强化人脸嘴唇、下颌等说话相关区域特征，搭配属性约束层确保生成人脸与原始属性一致，大幅改善现有方法生成视频人物真实感弱、细节质量低的缺陷。

技术关键词

视频生成方法生成对抗式网络音视频 MFCC算法人脸图像信息同步性音频编码器人脸关键点提取视频编码器注意力序列音频特征数据高层语义特征音频特征提取核心

基于LSTM-CBAM的音视频同步人脸视频生成方法

站点导航

APP 下载