基于多模态信息交互人脸合成方法、装置及设备

正文

推荐专利

申请号：CN202510191950

申请日期：2025-02-20

公开号：CN120163907A

公开日期：2025-06-17

类型：发明专利

摘要

本公开涉及一种基于多模态信息交互的人脸合成方法，涉及视频处理技术领域。该基于多模态信息交互的人脸合成方法包括：接收音频片段和音频片段分别对应的人脸图像；基于音频片段的频率信息，提取音频片段对应的音频时序特征，以及通过机器学习算法从音频片段中提取音频语义特征；通过双向交叉注意力算法融合音频时序特征和音频语义特征，得到音序语义特征；通过深度学习算法提取人脸图像对应的面部特征，将面部特征和音频语义特征对齐，得到面音语义特征；融合音序语义特征和面音语义特征，得到联合特征，对联合特征进行解码和重构，将联合特征转换为目标语音视频。实施本公开提供的方法，可以提高视频帧与音频之间的同步性。

技术关键词

语义特征音频面部特征时序特征多模态信息视频人脸深度学习算法语音机器学习算法动态时间规整算法跨模态注意力上存储计算机程序背景噪声编码器算法图像鉴别算法重构

系统为您推荐了相关专利信息

一种基于iOS平台的实时音频处理及梅尔谱图生成与分类方法及系统

信号处理模块分类方法存储模块分类系统输入模块

一种湖仓一体化的物联网时序数据存储架构系统及方法

数据存储架构系统环境图像数据设备健康状态评估执行实时数据分析多源异构数据

一种方言语音识别与转换方法及装置

文本转换方法编码器音频特征多任务

基于掩码生成式蒸馏与跨任务一致性的密集目标检测优化方法

检测优化方法学生教师协方差矩阵生成算法

一种类增量手势识别方法、电子设备及介质

手势识别方法原型索引样本协方差矩阵

基于多模态信息交互人脸合成方法、装置及设备

站点导航

APP 下载