摘要
本申请涉及知识库构建技术领域,提供一种基于多模态大语言模型的知识库构建方法及装置,该方法包括:获取多模态数据及其对应的类别标签,其中,所述多模态数据包括图像、视频、音频、点云、热成像、事件和文本中的至少一种;基于预设的提示词模板,通过多模态大语言模型生成与所述多模态数据对应的文本描述;通过预训练的文本编码器计算所生成的文本描述与对应的所述类别标签的余弦相似度;根据所述余弦相似度高于预设阈值的文本描述,构建对应类别的知识库。以此方式,实现图像、音频、点云等异构模态与文本的语义对齐,解决传统方法中模态间语义割裂的问题。
技术关键词
多模态
大语言模型
文本编码器
知识库构建方法
数据关联关系
语义
样本
知识库构建技术
标签
热成像
传播算法
音频
点云
跨模态
参数
模板
视频
系统为您推荐了相关专利信息
文本
语音指令控制方法
服务器
计算机设备
计算机程序产品
细胞分割方法
局部图像特征
文本
高维特征向量
图像块
多智能体协作
意图识别
自然语言文本
对象
控制单元
图像嵌入
图像编码器
文本编码器
微调特征
分类器