摘要
本发明提供一种图像描述方法、系统、存储介质及电子设备,所述方法包括以下步骤:对图像进行目标检测,获取所述图像中的目标对象;对所述图像进行全景分割,获取所述图像中的场景;获取输入文本提示,所述输入文本提示用于指示根据所述目标对象和所述场景描述所述图像;将所述输入文本提示重复输入至少一个大语言模型,获取所述图像的描述文本;提取所述描述文本的文本特征;提取所述图像的图像特征;计算所述文本特征和所述图像特征的相似度;选取相似度最大的描述文本作为所述图像的最佳描述文本。本发明的图像描述方法、系统、存储介质及电子设备能够实现准确地图像描述,且不受限于训练数据的数量。
技术关键词
大语言模型
电子设备
模块
场景
对象
文本编码器
图像编码器
存储计算机程序
存储器
可读存储介质
处理器
检测器
数据
系统为您推荐了相关专利信息
光伏电池清洗
灰尘量
清洗机器人
机器人控制方法
非临时性计算机可读存储介质
手持遥控器
遥控模块
飞控系统
陆空两栖
智能机器人