摘要
本申请公开了一种基于大语言模型的物品检测方法、装置及电子设备,涉及人工智能领域和金融科技领域,其中,该方法包括:基于目标图像确定目标提示词,将目标图像和目标提示词输入至目标模型,目标模型为基于L个训练图像训练得到的视觉语言模型,每个训练图像对应一个伪标签和图像标注,伪标签用于表征通过大语言模型基于训练图像和图像标注生成的违规物品的信息,在目标模型检测到目标图像中存在目标提示词对应的违规物品的情况下,通过目标模型确定目标位置。本申请解决了现有技术中由于视觉语言模型的训练样本存在长尾分布,所导致的通过训练得到的模型对物品进行检测的准确度低的技术问题。
技术关键词
物品检测方法
大语言模型
图像
标签
场景特征
文本编码器
物品检测装置
计算机程序产品
视觉
注意力机制
金融
跨模态
电子设备
物品特征
术语
处理器
系统为您推荐了相关专利信息
铸造桥式起重机
钢包
倾斜角度控制
冶金
控制策略
深度学习算法
语音情绪识别
大语言模型
数据采集单元
意图识别模型