摘要
本发明提供基于OCR技术的图像识别方法,属于图像处理技术领域,其方法包括获取多个图像数据与所述图像数据对应的音频数据,提取图像数据的图像特征与原始音频特征;将图像特征与原始音频特征进行特征融合,基于特征融合结果设计多模态神经网络,进而根据所述多模态神经网络构建识别模型;使用所述识别模型对待识别图像进行识别,并输出识别报告,提升识别的准确性和鲁棒性,更全面地理解图像内容,减少误识别的可能性,提升识别结果的合理性与识别过程的广泛性。
技术关键词
图像识别方法
音频特征
神经网络架构
多模态
合成器
中间层
图像特征向量
文本
数据
生成图像特征
样本
报告
图像处理技术
标签
参数
索引
鲁棒性
标记
系统为您推荐了相关专利信息
激光焊接装置
轨迹参数
激光焊接头
高风险
轨迹形状
生成对抗网络模型
多模态特征融合
深度卷积神经网络
数据
梅尔频率倒谱系数
识别偏差
情绪识别模型
情绪特征
交互方法
多模态情绪
识别系统
医疗器械
图像增强单元
文本识别模型
校验模块