基于多模态大语言模型的知识库构建方法及装置

正文

推荐专利

申请号：CN202511228315

申请日期：2025-08-29

公开号：CN120744846A

公开日期：2025-10-03

类型：发明专利

摘要

本申请涉及知识库构建技术领域，提供一种基于多模态大语言模型的知识库构建方法及装置，该方法包括：获取多模态数据及其对应的类别标签，其中，所述多模态数据包括图像、视频、音频、点云、热成像、事件和文本中的至少一种；基于预设的提示词模板，通过多模态大语言模型生成与所述多模态数据对应的文本描述；通过预训练的文本编码器计算所生成的文本描述与对应的所述类别标签的余弦相似度；根据所述余弦相似度高于预设阈值的文本描述，构建对应类别的知识库。以此方式，实现图像、音频、点云等异构模态与文本的语义对齐，解决传统方法中模态间语义割裂的问题。

技术关键词

多模态大语言模型文本编码器知识库构建方法数据关联关系语义样本知识库构建技术标签热成像传播算法音频点云跨模态参数模板视频

系统为您推荐了相关专利信息

语音指令控制方法、装置、计算机设备、可读存储介质和程序产品

文本语音指令控制方法服务器计算机设备计算机程序产品

一种基于Transformer的无监督细胞分割方法

细胞分割方法局部图像特征文本高维特征向量图像块

基于多智能体协作的即时信息问询类任务处理方法及相关装置

多智能体协作意图识别自然语言文本对象控制单元

标签识别方法、对象处理方法、计算设备、存储介质及程序产品

标签特征对象词汇数据库层级标签识别方法

多目标密集开放词汇图像记录

图像嵌入图像编码器文本编码器微调特征分类器

基于多模态大语言模型的知识库构建方法及装置

站点导航

APP 下载