一种用于视觉语言模型逐步推理方法

AITNT
正文
推荐专利
一种用于视觉语言模型逐步推理方法
申请号:CN202510992052
申请日期:2025-07-18
公开号:CN120911598A
公开日期:2025-11-07
类型:发明专利
摘要
本发明公开了一种用于视觉语言模型逐步推理方法,包括有S1输入文字问题和图像,问题概述模块生成多个问题概述候选结果,推理时间优化模块优化后将问题概述最佳结果作为视觉内容描述模块的输入;S2视觉内容描述模块生成多个视觉内容描述候选结果,推理时间优化模块优化后将视觉内容描述最佳结果作为逻辑分析模块的输入;S3、逻辑分析模块生成多个逻辑分析候选结果,推理时间优化模块优化后将逻辑分析最佳结果作为最后结论模块的输入;S4、最后结论模块生成多个最终结论候选结果,推理时间优化模块优化后输出最终结论最佳结果,增强了模型的训练效率和推理时间可扩展性,大大简化了多模态推理的建模过程,提高了模型在多样化场景中的泛化能力。
技术关键词
逻辑分析 推理方法 视觉 模型训练模块 子模块 多阶段 微调方法 训练样本集 数据 图像 基础 参数 格式 策略 场景 周期
系统为您推荐了相关专利信息
1
一种基于双重集成学习的锂电池生产定容的预测方法
统计特征 待测电池 时间序列预测模型 分类预测模型 数据
2
一种汽车故障识别方法及检测系统
混合诊断模型 LSTM神经网络 多模态传感器 生成座椅 多维特征向量
3
一种煤层巷道中的煤层检测方法及装置
煤层巷道 校正模块 数据获取子模块 标记 地面
4
基于分层知识增强的抑郁症识别方法及系统、电子设备
分类器模型 识别方法 音频特征信息 视觉特征信息 多模态
5
一种应用于自动驾驶汽车的高精度目标识别方法及系统
识别方法 融合算法 汽车 卷积神经网络识别 双目视觉测距
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号