摘要
本公开涉及一种基于多模态信息交互的人脸合成方法,涉及视频处理技术领域。该基于多模态信息交互的人脸合成方法包括:接收音频片段和音频片段分别对应的人脸图像;基于音频片段的频率信息,提取音频片段对应的音频时序特征,以及通过机器学习算法从音频片段中提取音频语义特征;通过双向交叉注意力算法融合音频时序特征和音频语义特征,得到音序语义特征;通过深度学习算法提取人脸图像对应的面部特征,将面部特征和音频语义特征对齐,得到面音语义特征;融合音序语义特征和面音语义特征,得到联合特征,对联合特征进行解码和重构,将联合特征转换为目标语音视频。实施本公开提供的方法,可以提高视频帧与音频之间的同步性。
技术关键词
语义特征
音频
面部特征
时序特征
多模态信息
视频
人脸
深度学习算法
语音
机器学习算法
动态时间规整算法
跨模态
注意力
上存储计算机程序
背景噪声
编码器算法
图像
鉴别算法
重构
系统为您推荐了相关专利信息
信号处理模块
分类方法
存储模块
分类系统
输入模块
数据存储架构系统
环境图像数据
设备健康状态评估
执行实时数据分析
多源异构数据