一种基于多模态大模型优化的文本图像理解方法

AITNT
正文
推荐专利
一种基于多模态大模型优化的文本图像理解方法
申请号:CN202510623802
申请日期:2025-05-15
公开号:CN120544206A
公开日期:2025-08-26
类型:发明专利
摘要
本发明公布了一种基于多模态大模型优化的文本图像理解方法,通过设计数据集与评估基准、轻量化特征恢复模块以及两阶段训练策略,增强对低质量文本图像的识别与推理能力;构建的数据集包括清晰‑低质文本图像成对样本;轻量化特征恢复模块包括:输入映射层、堆叠Transformer恢复模块、输出映射层、加和归一化层及融合层;两阶段训练策略包括视觉对齐阶段和语义对齐阶段。采用本发明提供的技术方案,能够显著提升多模态大模型在低质量文本图像条件下的识别准确率与推理稳定性,同时保持清晰图像场景下的性能不下降。
技术关键词
图像理解方法 多模态 视觉 输出特征 答案 集成特征 模块 两阶段 注意力机制 生成数据集 正确率 文本编码器 稳定特征 样本 自然场景 大语言模型
系统为您推荐了相关专利信息
1
一种高含泥工况螺杆泵控制系统及方法
螺杆泵控制系统 分布式应变传感器 高精度压力传感器 多模态 卷积神经网络模型
2
一种自动化养蜂方法
养蜂方法 移动机器人 云端服务器 蜂巢 计算机视觉
3
一种融入目标检测识别的无人机自主侦察载荷控制方法
载荷控制方法 视场角 优先级算法 控制无人机 载荷控制装置
4
一种面向机器视频编码的快速VVC帧内编码方法
编码器模块 编码方法 分支 视频压缩编解码技术 神经网络技术
5
基于空天遥感图谱的知识推荐方法、装置、设备及介质
知识推荐方法 关键词 模版 图谱 论文
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号