基于视觉语言模型的图像解释方法和装置

AITNT
正文
推荐专利
基于视觉语言模型的图像解释方法和装置
申请号:CN202511188183
申请日期:2025-08-25
公开号:CN120747670A
公开日期:2025-10-03
类型:发明专利
摘要
本申请涉及一种基于视觉语言模型的图像解释方法和装置。所述方法包括:根据样本图像的视觉标注和目标知识图谱确定样本推理指令;通过问答引擎,基于样本图像和样本推理指令生成样本图像的图像解释信息;基于样本图像、样本推理指令和样本图像的图像解释信息训练待训练视觉语言模型,确定目标视觉语言模型;通过目标视觉语言模型,根据目标图像和目标推理指令确定目标图像的图像解释信息。上述方案,统一模型训练数据集的数据格式,提高了数据集构建效率,节约了人力成本,同时能够使得训练出的视觉语言模型能够进行深层次的知识推理。
技术关键词
图像 样本 视觉 指令 图谱 自然语言 检测模型训练 标记 模型训练模块 实体 实例分割 标签 投影器 数据格式 处理器 计算机设备 可读存储介质 存储器
系统为您推荐了相关专利信息
1
用于自动驾驶中的多模态融合感知方法、装置及系统
雷达点云数据 交叉注意力机制 相机 感知装置 点云信息
2
基于深度学习的无人机影像配网要素自动识别方法及系统
自动识别方法 配网 影像 自动识别系统 无人机
3
基于人工智能的园区能源监测方法及系统
能源监测方法 网络 分布特征 能源监测系统 规模
4
基于动态阈值修正与电流变化预测的软启动器控制方法及系统
启动器控制方法 软启动器 长短期记忆网络 动态 温度补偿系数
5
基于多源异构数据的人工智能回燃预测方法及系统
多源异构数据 粒子群算法 矩阵 火灾现场 火灾识别方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号