摘要
本发明公开了一种用于视觉语言模型逐步推理方法,包括有S1输入文字问题和图像,问题概述模块生成多个问题概述候选结果,推理时间优化模块优化后将问题概述最佳结果作为视觉内容描述模块的输入;S2视觉内容描述模块生成多个视觉内容描述候选结果,推理时间优化模块优化后将视觉内容描述最佳结果作为逻辑分析模块的输入;S3、逻辑分析模块生成多个逻辑分析候选结果,推理时间优化模块优化后将逻辑分析最佳结果作为最后结论模块的输入;S4、最后结论模块生成多个最终结论候选结果,推理时间优化模块优化后输出最终结论最佳结果,增强了模型的训练效率和推理时间可扩展性,大大简化了多模态推理的建模过程,提高了模型在多样化场景中的泛化能力。
技术关键词
逻辑分析
推理方法
视觉
模型训练模块
子模块
多阶段
微调方法
训练样本集
数据
图像
基础
参数
格式
策略
场景
周期
系统为您推荐了相关专利信息
统计特征
待测电池
时间序列预测模型
分类预测模型
数据
混合诊断模型
LSTM神经网络
多模态传感器
生成座椅
多维特征向量
分类器模型
识别方法
音频特征信息
视觉特征信息
多模态
识别方法
融合算法
汽车
卷积神经网络识别
双目视觉测距