摘要
本发明公开了一种基于优化多模态视觉与语言处理的场景文本识别方法,首先,将图像数据归一化;然后将预处理后的数据输入到优化的视觉模型中。视觉模型通过卷积‑Transformer混合神经网络提取多尺度空间和语义特征,并利用多尺度注意力机制以增强特征表达能力;语言模型对视觉模型输出的字符概率向量进行校正,并引入可学习位置编码来优化特征的表示。通过设计双向多模态交互模块,融合视觉和语言特征,使用自适应融合机制生成高质量的多模态联合特征表示。在应用阶段,通过高效的推理框架对优化后的模型进行部署,显著提升场景文本识别的速度与准确性。
技术关键词
场景文本识别方法
交叉注意力机制
多模态交互
前馈神经网络
字符
卷积模块
模态特征
全局平均池化
多尺度注意力机制
归一化模块
sigmoid函数
融合视觉特征