摘要
本发明公布了一种基于多模态大模型优化的文本图像理解方法,通过设计数据集与评估基准、轻量化特征恢复模块以及两阶段训练策略,增强对低质量文本图像的识别与推理能力;构建的数据集包括清晰‑低质文本图像成对样本;轻量化特征恢复模块包括:输入映射层、堆叠Transformer恢复模块、输出映射层、加和归一化层及融合层;两阶段训练策略包括视觉对齐阶段和语义对齐阶段。采用本发明提供的技术方案,能够显著提升多模态大模型在低质量文本图像条件下的识别准确率与推理稳定性,同时保持清晰图像场景下的性能不下降。
技术关键词
图像理解方法
多模态
视觉
输出特征
答案
集成特征
模块
两阶段
注意力机制
生成数据集
正确率
文本编码器
稳定特征
样本
自然场景
大语言模型
系统为您推荐了相关专利信息
螺杆泵控制系统
分布式应变传感器
高精度压力传感器
多模态
卷积神经网络模型
养蜂方法
移动机器人
云端服务器
蜂巢
计算机视觉
载荷控制方法
视场角
优先级算法
控制无人机
载荷控制装置
编码器模块
编码方法
分支
视频压缩编解码技术
神经网络技术