基于多模态特征融合的音频识别优化方法及系统

正文

推荐专利

申请号：CN202510980058

申请日期：2025-07-16

公开号：CN120612941A

公开日期：2025-09-09

类型：发明专利

摘要

本发明公开了基于多模态特征融合的音频识别优化方法及系统，涉及音频识别技术领域。所述方法包括：接收目标音视频数据和音频识别对象特征；音频识别对象特征对目标音视频数据执行音视频分割映射，构建音频‑视频映射序列；针对音频‑视频映射序列中的视频序列进行检测，生成唇动质量指标序列；构建唇部个体参考模板，对视频序列中的唇部区域进行提取和仿射变换，生成仿射唇动图像序列；基于唇动质量指标序列，在多模态融合模型中对仿射唇动图像序列和音频‑视频映射序列中的音频序列进行置信识别融合，生成融合音频识别结果。解决了现有技术中音频识别准确性不足的技术问题，通过多模态特征融合，达到了提高音频识别准确性的技术效果。

技术关键词

多模态特征融合识别优化方法序列关键点音视频指标面部模板样本音频识别技术对象形态图像结构视觉通道基础结构拉普拉斯

系统为您推荐了相关专利信息

一种水闸泵站运行状态与水情联动监测系统

水闸泵站监测系统数据采集单元水位预测值互锁单元

一种声学阻抗表面控制方法、装置、存储介质及产品

扬声器线圈表面控制方法数字滤波器数字信号处理器电流

一种预测空气质量的方法

测量点数据矿井巷道频率风速

一种整体叶盘流道五轴摆线铣削轨迹规划方法

刀轴矢量包络刀轨规划轨迹规划方法曲线

高速通讯链路校正方法、系统及终端

源极驱动芯片时序控制芯片链路通讯校正方法

基于多模态特征融合的音频识别优化方法及系统

站点导航

APP 下载