基于多模态信息交互人脸合成方法、装置及设备

AITNT
正文
推荐专利
基于多模态信息交互人脸合成方法、装置及设备
申请号:CN202510191950
申请日期:2025-02-20
公开号:CN120163907A
公开日期:2025-06-17
类型:发明专利
摘要
本公开涉及一种基于多模态信息交互的人脸合成方法,涉及视频处理技术领域。该基于多模态信息交互的人脸合成方法包括:接收音频片段和音频片段分别对应的人脸图像;基于音频片段的频率信息,提取音频片段对应的音频时序特征,以及通过机器学习算法从音频片段中提取音频语义特征;通过双向交叉注意力算法融合音频时序特征和音频语义特征,得到音序语义特征;通过深度学习算法提取人脸图像对应的面部特征,将面部特征和音频语义特征对齐,得到面音语义特征;融合音序语义特征和面音语义特征,得到联合特征,对联合特征进行解码和重构,将联合特征转换为目标语音视频。实施本公开提供的方法,可以提高视频帧与音频之间的同步性。
技术关键词
语义特征 音频 面部特征 时序特征 多模态信息 视频 人脸 深度学习算法 语音 机器学习算法 动态时间规整算法 跨模态 注意力 上存储计算机程序 背景噪声 编码器算法 图像 鉴别算法 重构
系统为您推荐了相关专利信息
1
一种基于iOS平台的实时音频处理及梅尔谱图生成与分类方法及系统
信号处理模块 分类方法 存储模块 分类系统 输入模块
2
一种湖仓一体化的物联网时序数据存储架构系统及方法
数据存储架构系统 环境图像数据 设备健康状态评估 执行实时数据分析 多源异构数据
3
一种方言语音识别与转换方法及装置
文本 转换方法 编码器 音频特征 多任务
4
基于掩码生成式蒸馏与跨任务一致性的密集目标检测优化方法
检测优化方法 学生 教师 协方差矩阵 生成算法
5
一种类增量手势识别方法、电子设备及介质
手势识别方法 原型 索引 样本 协方差矩阵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号