一种用于视觉语言模型逐步推理方法

正文

推荐专利

一种用于视觉语言模型逐步推理方法

申请号：CN202510992052

申请日期：2025-07-18

公开号：CN120911598A

公开日期：2025-11-07

类型：发明专利

摘要

本发明公开了一种用于视觉语言模型逐步推理方法，包括有S1输入文字问题和图像，问题概述模块生成多个问题概述候选结果，推理时间优化模块优化后将问题概述最佳结果作为视觉内容描述模块的输入；S2视觉内容描述模块生成多个视觉内容描述候选结果，推理时间优化模块优化后将视觉内容描述最佳结果作为逻辑分析模块的输入；S3、逻辑分析模块生成多个逻辑分析候选结果，推理时间优化模块优化后将逻辑分析最佳结果作为最后结论模块的输入；S4、最后结论模块生成多个最终结论候选结果，推理时间优化模块优化后输出最终结论最佳结果，增强了模型的训练效率和推理时间可扩展性，大大简化了多模态推理的建模过程，提高了模型在多样化场景中的泛化能力。

技术关键词

逻辑分析推理方法视觉模型训练模块子模块多阶段微调方法训练样本集数据图像基础参数格式策略场景周期

系统为您推荐了相关专利信息

一种基于双重集成学习的锂电池生产定容的预测方法

统计特征待测电池时间序列预测模型分类预测模型数据

一种汽车故障识别方法及检测系统

混合诊断模型 LSTM神经网络多模态传感器生成座椅多维特征向量

一种煤层巷道中的煤层检测方法及装置

煤层巷道校正模块数据获取子模块标记地面

基于分层知识增强的抑郁症识别方法及系统、电子设备

分类器模型识别方法音频特征信息视觉特征信息多模态

一种应用于自动驾驶汽车的高精度目标识别方法及系统

识别方法融合算法汽车卷积神经网络识别双目视觉测距

一种用于视觉语言模型逐步推理方法

站点导航

APP 下载