摘要
本公开提供了一种基于多模态大模型的对话方法、装置、设备以及存储介质。本公开涉及计算机技术领域,尤其涉及深度学习、大语言模型、问答系统、家装设计软件等技术领域。该方法包括:响应于前端界面的对话操作,获取输入的原始查询文本和前端界面的界面图片;利用视觉大语言模型,根据界面图片中包含的视觉信息,对原始查询文本进行改写,得到增强查询文本;根据原始查询文本和增强查询文本,在向量数据库中检索得到外部知识结果;将增强查询文本和外部知识结果输入问答模型,得到回答文本。根据本公开的方案,可以结合用户的文本输入和实时的操作界面视觉信息,更深刻地理解用户意图,从而提供更加精准、有效的回答。
技术关键词
界面图片
文本
大语言模型
对话方法
问答模型
视觉
多模态
家装设计软件
YOLO模型
异常状态
设计主体
模块
对话装置
意图
问答系统
计算机程序产品
处理器通信
系统为您推荐了相关专利信息
映射关系表
隐性特征
产品推荐方法
特征提取系统
数据
食品图像分类
多模态
文本编码器
融合特征
交叉注意力机制