基于多模态树搜索的大型视觉-语言模型推理方法

AITNT
正文
推荐专利
基于多模态树搜索的大型视觉-语言模型推理方法
申请号:CN202510527928
申请日期:2025-04-25
公开号:CN120494089A
公开日期:2025-08-15
类型:发明专利
摘要
本发明提供一种基于多模态树搜索的大型视觉‑语言模型推理方法,通过辅助工具调用生成了多步的多模态辅助信息,结合预测展开树搜索机制对目标任务的候选推理路径进行了模拟评估,并通过自投票选择最优路径,因此通过视觉‑文本交织推理框架和测试时扩展策略,充分利用了视觉和文字信息,显著提升了大型视觉‑语言模型在复杂多步推理任务中的推理能力,能够得到更为准确的推理结果,并且无需模型微调,因此能够更为快速地得到推理结果,使得本发明的方案具有很好的实际应用价值。
技术关键词
推理方法 多模态辅助 交互工具 辅助工具 绘图工具 节点 辅助线 文本 方程 规划 大语言模型 蒙特卡洛 视觉特征 机制 模拟器 图像 关系 策略
系统为您推荐了相关专利信息
1
基于图神经网络的航空电子装备故障诊断推理方法及系统
实体 图谱 电子装备 推理方法 三元组
2
一种基于多层路径语义建模的金融知识图谱推理方法及系统
知识图谱推理方法 语义 金融 三元组 多路径
3
一种基于解码引导的大语言模型多模态推理方法和装置
多模态 推理方法 答案 大语言模型 图片
4
一种基于认知图谱的多模态数据动态推理系统及方法
语音识别置信度 文本 动态推理方法 图谱 推理系统
5
动态路由混合专家模型的推理方法、系统、设备及介质
并行策略 流水线 阶段 推理方法 模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号