摘要
本发明公开了基于多模态特征融合的音频识别优化方法及系统,涉及音频识别技术领域。所述方法包括:接收目标音视频数据和音频识别对象特征;音频识别对象特征对目标音视频数据执行音视频分割映射,构建音频‑视频映射序列;针对音频‑视频映射序列中的视频序列进行检测,生成唇动质量指标序列;构建唇部个体参考模板,对视频序列中的唇部区域进行提取和仿射变换,生成仿射唇动图像序列;基于唇动质量指标序列,在多模态融合模型中对仿射唇动图像序列和音频‑视频映射序列中的音频序列进行置信识别融合,生成融合音频识别结果。解决了现有技术中音频识别准确性不足的技术问题,通过多模态特征融合,达到了提高音频识别准确性的技术效果。
技术关键词
多模态特征融合
识别优化方法
序列
关键点
音视频
指标
面部
模板
样本
音频识别技术
对象
形态
图像结构
视觉
通道
基础结构
拉普拉斯
系统为您推荐了相关专利信息
水闸泵站
监测系统
数据采集单元
水位预测值
互锁单元
扬声器线圈
表面控制方法
数字滤波器
数字信号处理器
电流