摘要
本发明提供一种迭代生成式多模态思维链推理方法、装置、电子设备及存储介质,涉及人工智能技术领域,方法包括:获取初始输入数据,并通过多模态大语言模型对初始输入数据进行推理,得到文本推理结果和中间推理提示;利用多模态大语言模型对文本推理结果和中间推理提示进行迭代更新,生成更新后的文本推理结果和更新后的中间推理提示;其中,在迭代更新的过程中,多模态大语言模型的输入包括:前次文本推理结果和与前次文本推理结果相匹配的辅助图像;基于每次迭代生成的文本推理结果和相匹配的辅助图像生成图文思维链,并基于图文思维链得到目标推理结果。通过本发明提供的方法,实现文本与图像同步生成,提升多模态复杂任务的推理精度与解释性。
技术关键词
大语言模型
推理方法
文本
图像
生成图文
环境状态预测
非暂态计算机可读存储介质
多模态特征融合
数据
隐式特征
电子设备
推理装置
人工智能技术
处理器
辅助线
存储器
模块
系统为您推荐了相关专利信息
巡检路径
分支
巡检机器人
RGB摄像头
红外摄像头
异常检测方法
输出特征
卷积模块
图像
注意力机制
智能电网故障
自愈方法
多模态数据融合方法
故障自愈
预训练语言模型
压缩编码数据
扩频体制
解码算法
深度神经网络模型
通信方法