摘要
本发明属于计算机图像处理领域,具体为一种具有语义引导的高效场景文本图像超分辨率方法。本发明方法包括:将图像输入CNN编码器和特征融合模块,准确提取图像的视觉特征,将视觉特征与高级指导信息进行融合,输入到顺序残差块,以像素重组的方式生成超分辨率图像;其中:高级指导信息是通过先将图像输入文本识别模型并进行自注意力计算,得到语义特征,再将语义特征输入到由自注意力和交叉注意力机制组成的视觉‑语义对齐模块中通过交叉注意力机制进行对齐得到;本发明提出的方法能够高效重建超分辨率场景文本图像,并且模型以更少的计算成本实现了优异的性能。
技术关键词
场景文本图像
超分辨率方法
文本识别模型
交叉注意力机制
语义特征
对齐模块
编码器
生成超分辨率图像
分支
融合视觉特征
生成高分辨率
字符
阶段
系统为您推荐了相关专利信息
角磨机
智能集成控制系统
特征提取单元
水流特征
集成控制方法
解码模型
融合特征
训练机器人
编码
动作规划方法
画像生成方法
增量更新
多模态响应
语义向量
画像生成系统