基于多模态特征融合的音频识别优化方法及系统

AITNT
正文
推荐专利
基于多模态特征融合的音频识别优化方法及系统
申请号:CN202510980058
申请日期:2025-07-16
公开号:CN120612941A
公开日期:2025-09-09
类型:发明专利
摘要
本发明公开了基于多模态特征融合的音频识别优化方法及系统,涉及音频识别技术领域。所述方法包括:接收目标音视频数据和音频识别对象特征;音频识别对象特征对目标音视频数据执行音视频分割映射,构建音频‑视频映射序列;针对音频‑视频映射序列中的视频序列进行检测,生成唇动质量指标序列;构建唇部个体参考模板,对视频序列中的唇部区域进行提取和仿射变换,生成仿射唇动图像序列;基于唇动质量指标序列,在多模态融合模型中对仿射唇动图像序列和音频‑视频映射序列中的音频序列进行置信识别融合,生成融合音频识别结果。解决了现有技术中音频识别准确性不足的技术问题,通过多模态特征融合,达到了提高音频识别准确性的技术效果。
技术关键词
多模态特征融合 识别优化方法 序列 关键点 音视频 指标 面部 模板 样本 音频识别技术 对象 形态 图像结构 视觉 通道 基础结构 拉普拉斯
系统为您推荐了相关专利信息
1
一种水闸泵站运行状态与水情联动监测系统
水闸泵站 监测系统 数据采集单元 水位预测值 互锁单元
2
一种声学阻抗表面控制方法、装置、存储介质及产品
扬声器线圈 表面控制方法 数字滤波器 数字信号处理器 电流
3
一种预测空气质量的方法
测量点 数据 矿井巷道 频率 风速
4
一种整体叶盘流道五轴摆线铣削轨迹规划方法
刀轴矢量 包络 刀轨规划 轨迹规划方法 曲线
5
高速通讯链路校正方法、系统及终端
源极驱动芯片 时序控制芯片 链路 通讯 校正方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号