摘要
本申请公开了一种嵌入式具身智能视觉语言大模型知识库构建及应用方法、设备、介质及产品,涉及数据智能处理领域。该方法包括采用图像编码器和文本编码器,分别将图像和文本数据编码为向量,得到图像和文本向量;融合图像向量和文本向量,并基于融合结果生成知识图谱,得到嵌入式具身智能视觉语言大模型知识库;获取用户问题,并解析用户问题得到解析结果;基于解析结果在多模态知识库中检索得到多个物体以及图检索结果;将选取的多个物体与对应的图检索结果进行合并,得到三元组信息,并将三元组信息转化为物体的位置文本描述后,输入到多模态大语言模型中,输出与用户问题对应的答案。本申请能够提高生成回答的准确性,减少幻觉现象的发生。
技术关键词
物体
多模态
视觉
文本编码器
图像编码器
生成知识图谱
三元组
大语言模型
编码向量
数据编码
文本特征向量
检索策略
处理器
计算机程序产品
学习方法
答案
解析器
计算机设备
系统为您推荐了相关专利信息
智能可视化
查询意图
多模态
决策系统
知识图谱嵌入方法
软件系统代码自动生成方法
界面图片
业务系统
表单业务
数据项
CT数据压缩方法
区域位置信息
数据处理单元
视角
分区