基于视觉语言模型的图像解释方法和装置

正文

推荐专利

基于视觉语言模型的图像解释方法和装置

申请号：CN202511188183

申请日期：2025-08-25

公开号：CN120747670A

公开日期：2025-10-03

类型：发明专利

摘要

本申请涉及一种基于视觉语言模型的图像解释方法和装置。所述方法包括：根据样本图像的视觉标注和目标知识图谱确定样本推理指令；通过问答引擎，基于样本图像和样本推理指令生成样本图像的图像解释信息；基于样本图像、样本推理指令和样本图像的图像解释信息训练待训练视觉语言模型，确定目标视觉语言模型；通过目标视觉语言模型，根据目标图像和目标推理指令确定目标图像的图像解释信息。上述方案，统一模型训练数据集的数据格式，提高了数据集构建效率，节约了人力成本，同时能够使得训练出的视觉语言模型能够进行深层次的知识推理。

技术关键词

图像样本视觉指令图谱自然语言检测模型训练标记模型训练模块实体实例分割标签投影器数据格式处理器计算机设备可读存储介质存储器

系统为您推荐了相关专利信息

用于自动驾驶中的多模态融合感知方法、装置及系统

雷达点云数据交叉注意力机制相机感知装置点云信息

基于深度学习的无人机影像配网要素自动识别方法及系统

自动识别方法配网影像自动识别系统无人机

基于人工智能的园区能源监测方法及系统

能源监测方法网络分布特征能源监测系统规模

基于动态阈值修正与电流变化预测的软启动器控制方法及系统

启动器控制方法软启动器长短期记忆网络动态温度补偿系数

基于多源异构数据的人工智能回燃预测方法及系统

多源异构数据粒子群算法矩阵火灾现场火灾识别方法

基于视觉语言模型的图像解释方法和装置

站点导航

APP 下载