摘要
本发明公开了一种基于特征重构和一致性CTC的语义增强文本识别方法,所述方法包括以下步骤:预先建立CTC模型;获取文本图像,基于文本图像的高度和宽高比、以及预先设置的最大宽高比对文本图像进行预处理;将预处理后文本图像生成两个不同的增强视图;将所述两个不同的增强视图输入预先训练的CTC模型进行处理;将处理结果作为文本识别结果输出。本发明为了使图像信息更好地与语音和文本融合,对图像信息进行序列学习,建立时间顺序模型对语义信息的提取,通过特征重构和语义增强技术,能提高文本识别的准确性和鲁棒性,有效解决现有技术中存在的对齐问题。
技术关键词
文本识别方法
语义
重构矩阵
图像
多头注意力机制
Softmax函数
多层感知机
字符
视觉特征
序列
标签
重排特征
梯度下降算法
前馈神经网络
系统为您推荐了相关专利信息
主题识别方法
训练文本数据
主题词向量
矩阵
数据编码
瑕疵检测方法
屏幕
模板匹配算法
像素点
轮廓匹配算法
物体三维重建方法
相机
图像
网络结构
物体三维模型
城市道路交通设施
巡检方法
控制无人机飞行
三维模型
图像边缘特征