摘要
本发明涉及一种基于特征增强和多尺度特征融合的医疗票据图像文本检测方法,该方法融合了高效的分割模块和可学习的后处理模块,并通过引入视觉语言预训练模型来增强检测方法的性能;其中,分割模块包括特征增强模块和多尺度特征融合模块,用于增强模型的泛化性和鲁棒性;后处理模块采用了可微分的二值化方法,能够自适应地设置阈值,从而改善文本检测的效果;预训练模块引入了视觉语言预训练模型,使得模型获得丰富的视觉和语义表征能力。本发明可以有效提高其文本检测的速度和精度,也为后续更加复杂的医疗场景下的文本检测算法研究以及工程应用提供了新的思路。
技术关键词
图像文本检测方法
预训练模型
票据
多尺度特征融合
后处理模块
多层次特征提取
视觉
文本检测模型
图像解码器
注意力
网络
金字塔
医疗场景
通道
鲁棒性
语义
系统为您推荐了相关专利信息
多模态
多尺度特征融合
图像篡改检测
分支
融合特征
分布式供电设备
故障预警系统
分布式电力
异常事件
故障特征
生成系统
输入模块
预训练模型
输出模块
RNN模型
信号解码方法
视觉诱发脑
语义特征
多模态
重建高分辨率图像
自动化测试方法
自动化测试系统
设备运行状态
生成控制指令
数据分析模块