一种具有语义引导的高效场景文本图像超分辨率方法

正文

推荐专利

申请号：CN202410702281

申请日期：2024-06-02

公开号：CN118608385A

公开日期：2024-09-06

类型：发明专利

摘要

本发明属于计算机图像处理领域，具体为一种具有语义引导的高效场景文本图像超分辨率方法。本发明方法包括：将图像输入CNN编码器和特征融合模块，准确提取图像的视觉特征，将视觉特征与高级指导信息进行融合，输入到顺序残差块，以像素重组的方式生成超分辨率图像；其中：高级指导信息是通过先将图像输入文本识别模型并进行自注意力计算，得到语义特征，再将语义特征输入到由自注意力和交叉注意力机制组成的视觉‑语义对齐模块中通过交叉注意力机制进行对齐得到；本发明提出的方法能够高效重建超分辨率场景文本图像，并且模型以更少的计算成本实现了优异的性能。

技术关键词

场景文本图像超分辨率方法文本识别模型交叉注意力机制语义特征对齐模块编码器生成超分辨率图像分支融合视觉特征生成高分辨率字符阶段

系统为您推荐了相关专利信息

角磨机智能集成控制系统及方法

角磨机智能集成控制系统特征提取单元水流特征集成控制方法

用于动作规划的方法、装置、设备和存储介质

解码模型融合特征训练机器人编码动作规划方法

一种基于大语言AI模型的智能短信模板生成方法及系统

短信模板矩阵生成方法文本布局

一种基于因果推理与跨模态匹配的舞蹈服饰道具检索方法

舞蹈服饰检索方法服饰道具文本注意力

一种基于意图到问题模型的动态用户画像生成系统及方法

画像生成方法增量更新多模态响应语义向量画像生成系统

一种具有语义引导的高效场景文本图像超分辨率方法

站点导航

APP 下载