一种嵌入式具身智能视觉语言大模型知识库构建及应用方法、设备、介质及产品

正文

推荐专利

申请号：CN202510051711

申请日期：2025-01-14

公开号：CN119476463A

公开日期：2025-02-18

类型：发明专利

摘要

本申请公开了一种嵌入式具身智能视觉语言大模型知识库构建及应用方法、设备、介质及产品，涉及数据智能处理领域。该方法包括采用图像编码器和文本编码器，分别将图像和文本数据编码为向量，得到图像和文本向量；融合图像向量和文本向量，并基于融合结果生成知识图谱，得到嵌入式具身智能视觉语言大模型知识库；获取用户问题，并解析用户问题得到解析结果；基于解析结果在多模态知识库中检索得到多个物体以及图检索结果；将选取的多个物体与对应的图检索结果进行合并，得到三元组信息，并将三元组信息转化为物体的位置文本描述后，输入到多模态大语言模型中，输出与用户问题对应的答案。本申请能够提高生成回答的准确性，减少幻觉现象的发生。

技术关键词

物体多模态视觉文本编码器图像编码器生成知识图谱三元组大语言模型编码向量数据编码文本特征向量检索策略处理器计算机程序产品学习方法答案解析器计算机设备

系统为您推荐了相关专利信息

一种火星巡视器的视觉三维地形重建误差建模方法及系统

重建误差协方差矩阵建模方法表达式方程

一种多模态SQL数据库交互分析与智能可视化决策系统

智能可视化查询意图多模态决策系统知识图谱嵌入方法

一种软件系统代码自动生成方法、装置、设备及存储介质

软件系统代码自动生成方法界面图片业务系统表单业务数据项

一种光子计数CT数据压缩方法

CT数据压缩方法区域位置信息数据处理单元视角分区

一种多模态目标检测方法、装置、终端及储存介质

多模态编码器注意力文本多尺度特征融合

一种嵌入式具身智能视觉语言大模型知识库构建及应用方法、设备、介质及产品

站点导航

APP 下载