摘要
本发明属于大模型领域,具体涉及一种基于多模态基元的文档问答方法、系统、终端及介质,对用户上传的若干文档提取各个文档的标题基元、段落基元、图像基元和表格基元;构建段落基元与图像基元、表格基元的相关性映射表;将文本模态的基元转换为文本向量进行存储;将用户问题转化为查询向量;根据查询向量筛选出目标标题基元和目标段落基元,并获取相关的目标图像基元、目标表格基元;将目标标题基元、目标段落基元、目标图像基元、目标表格基元与用户问题构造成提示词,将提示词输入多模态大语言模型中进行处理,输出问题结果。本发明基于多模态信息进行问题回答,提高模型所输出问题结果的准确性和可解释性。
技术关键词
基元
问答方法
表格
文本
图像
大语言模型
位置映射
字符
多模态信息
存储单元
可读存储介质
问答系统
程序
终端
输出模块
存储模块
关系
处理器
系统为您推荐了相关专利信息
三角形
屏幕检测方法
计算机执行指令
图像处理
灯珠
远程医疗方法
资源
远程医疗系统
医疗设备
实时状态信息
视频帧
视频内容审核方法
神经网络模型
白名单
时间段