摘要
本申请涉及一种基于视觉语言模型的图像解释方法和装置。所述方法包括:根据样本图像的视觉标注和目标知识图谱确定样本推理指令;通过问答引擎,基于样本图像和样本推理指令生成样本图像的图像解释信息;基于样本图像、样本推理指令和样本图像的图像解释信息训练待训练视觉语言模型,确定目标视觉语言模型;通过目标视觉语言模型,根据目标图像和目标推理指令确定目标图像的图像解释信息。上述方案,统一模型训练数据集的数据格式,提高了数据集构建效率,节约了人力成本,同时能够使得训练出的视觉语言模型能够进行深层次的知识推理。
技术关键词
图像
样本
视觉
指令
图谱
自然语言
检测模型训练
标记
模型训练模块
实体
实例分割
标签
投影器
数据格式
处理器
计算机设备
可读存储介质
存储器
系统为您推荐了相关专利信息
雷达点云数据
交叉注意力机制
相机
感知装置
点云信息
启动器控制方法
软启动器
长短期记忆网络
动态
温度补偿系数
多源异构数据
粒子群算法
矩阵
火灾现场
火灾识别方法