一种基于多模态大模型优化的文本图像理解方法

正文

推荐专利

申请号：CN202510623802

申请日期：2025-05-15

公开号：CN120544206A

公开日期：2025-08-26

类型：发明专利

摘要

本发明公布了一种基于多模态大模型优化的文本图像理解方法，通过设计数据集与评估基准、轻量化特征恢复模块以及两阶段训练策略，增强对低质量文本图像的识别与推理能力；构建的数据集包括清晰‑低质文本图像成对样本；轻量化特征恢复模块包括：输入映射层、堆叠Transformer恢复模块、输出映射层、加和归一化层及融合层；两阶段训练策略包括视觉对齐阶段和语义对齐阶段。采用本发明提供的技术方案，能够显著提升多模态大模型在低质量文本图像条件下的识别准确率与推理稳定性，同时保持清晰图像场景下的性能不下降。

技术关键词

图像理解方法多模态视觉输出特征答案集成特征模块两阶段注意力机制生成数据集正确率文本编码器稳定特征样本自然场景大语言模型

系统为您推荐了相关专利信息

一种高含泥工况螺杆泵控制系统及方法

螺杆泵控制系统分布式应变传感器高精度压力传感器多模态卷积神经网络模型

一种自动化养蜂方法

养蜂方法移动机器人云端服务器蜂巢计算机视觉

一种融入目标检测识别的无人机自主侦察载荷控制方法

载荷控制方法视场角优先级算法控制无人机载荷控制装置

一种面向机器视频编码的快速VVC帧内编码方法

编码器模块编码方法分支视频压缩编解码技术神经网络技术

基于空天遥感图谱的知识推荐方法、装置、设备及介质

知识推荐方法关键词模版图谱论文

一种基于多模态大模型优化的文本图像理解方法

站点导航

APP 下载