摘要
本发明公开了基于多模态大模型和思维链的图文问答方法、设备及介质,属于自然语言处理技术领域,本发明要解决的技术问题为如何提升复杂图文问答任务中的推理能力、答案的准确性以及可解释性,采用的技术方案为:收集图像以及与图像相关的问题文本;对图像进行预处理,并通过预训练的图像编码器ViT将预处理后的图像转换为图像token序列img_token;对与图像相关的问题文本进行预处理,对预处理后的问题文本进行编码,将预处理后的问题文本转换为问题文本token序列question_token;将图像toke序列img_token和问题文本toke序列question_token拼接成多模态输入表示。
技术关键词
问答方法
多模态
文本
图文
序列
图像编码器
生成答案
可读存储介质
处理器
存储器
自然语言
图像处理
计算机
像素
模板
颜色
词典
系统为您推荐了相关专利信息
虚假数据检测方法
新能源电网
能源监测系统
系统性能参数
逻辑