摘要
本发明涉及智能售货技术领域,解决了现有技术中无法在多目标场景下准确地进行商品识别的问题,提供了一种基于多模态数据处理的多目标商品识别方法、装置及系统。该方法包括:获取商品交易场景下多帧实时图像;对实时图像进行预处理和标签信息提取,确定目标图像和商品标签对应的文字信息;对目标图像进行实例分割,确定商品位置信息;对目标图像进行特征提取,确定商品图像特征信息;根据预收集的智能售货场景下的多源私有化数据,对开源多模态视觉语言模型进行微调与优化处理,得到多模态大模型;将商品图像特征信息和文字信息输入多模态大模型中进行信息融合,确定商品目标识别结果。本发明能够在多目标场景下准确地进行商品识别。
技术关键词
商品图像特征
商品识别方法
多模态
实时图像
融合特征
商品标签
实例分割
区域位置信息
显著性检测模型
实时视频
融合图像特征
样本
计算机程序指令
场景
智能售货技术
光学字符识别技术
商品识别系统
商品识别装置
系统为您推荐了相关专利信息
多模态数据融合
Attention机制
变量
关键字
双向长短期记忆
路径预测系统
时间卷积网络
囊泡
多模态
轨迹可视化
水上救援机器人
协同控制方法
声呐传感器
多模态
雷达传感器
多源异构数据
多通道卷积神经网络
加权特征
轨迹
融合方法