摘要
本申请公开了一种基于多模态大模型的问答方法、装置、设备及介质,涉及人工智能技术领域,包括:获取用户输入的目标图像和目标自然语言查询请求,并确定目标图像对应的视觉特征和目标自然语言查询请求对应的文本特征,以及基于视觉特征和文本特征确定相应的多模态融合特征;利用预先经过训练的目标大模型和预设智能代理,基于链式思维策略、预设工具集和多模态融合特征对目标自然语言查询请求对应的目标问题进行推理,得到相应的目标推理结果;基于目标推理结果生成候选回答,并确定候选回答对应的目标置信度,以及基于目标置信度和候选回答确定并输出目标问题对应的目标回答。本申请可以整合多模态信息与推理验证以提升问答的准确性和可靠性。
技术关键词
问答方法
自然语言
视觉特征
融合特征
置信度阈值
图像
输入接口
多模态信息
文本编码器
策略
问答装置
存储计算机程序
实体
人工智能技术
生成工具
分析工具
电子设备
系统为您推荐了相关专利信息
机器学习模型
形式化方法
特征值
神经网络模型
离散方法
电力金具
输送带组件
分拣系统
分拣执行机构
识别装置
动态反馈控制
多模态传感器
缺陷检测系统
胶合板
缺陷检测方法
随机森林模型
时域特征
频域特征
监控预警方法
训练特征