摘要
本发明属于大语言模型技术领域,提供了一种基于结构化理解的低幻觉多Agent图片问答系统的构建方法,包括:步骤S1:图片结构化理解的训练数据集构造:针对文本表单型图片数据、数据表型数据、图片分类和text2sql数据,分别构建训练数据集;步骤S2:四种Agent的联合训练:根据四种Agent,构造对应的prompt数据,将prompt数据混合到一起进行原始多模态大语言模型的训练,得到训练后的多模态大语言模型;步骤S3:基于训练后的多模态大语言模型,构建多Agent系统。根据本发明,有效地增强多模态大语言模型的图片内容理解能力,缓解多模态大语言模型的幻觉问题。
技术关键词
大语言模型
多Agent系统
问答系统
多模态
数据表结构
关系型数据库
表单
图片类别
图谱
文本
模版
自然语言
表格
语句
矩阵
输出模块
可读存储介质
语义
系统为您推荐了相关专利信息
多模态图像数据
生物力学特征
样本
创面评估
生理
陪护机器人
多模态交互
分析模块
处理单元
非接触式