摘要
本发明提供一种基于多模态树搜索的大型视觉‑语言模型推理方法,通过辅助工具调用生成了多步的多模态辅助信息,结合预测展开树搜索机制对目标任务的候选推理路径进行了模拟评估,并通过自投票选择最优路径,因此通过视觉‑文本交织推理框架和测试时扩展策略,充分利用了视觉和文字信息,显著提升了大型视觉‑语言模型在复杂多步推理任务中的推理能力,能够得到更为准确的推理结果,并且无需模型微调,因此能够更为快速地得到推理结果,使得本发明的方案具有很好的实际应用价值。
技术关键词
推理方法
多模态辅助
交互工具
辅助工具
绘图工具
节点
辅助线
文本
方程
规划
大语言模型
蒙特卡洛
视觉特征
机制
模拟器
图像
关系
策略
系统为您推荐了相关专利信息
语音识别置信度
文本
动态推理方法
图谱
推理系统