摘要
本申请实施例提供了一种基于视觉语言的图像识别方法、控制器、机器人及介质,涉及人工智能技术领域,适用于金融科技领域和医疗健康领域。该方法包括:获取目标使用者的物品使用记录信息;基于物品使用记录信息生成辅助寻物知识图谱;对辅助寻物知识图谱进行图谱编码,得到图谱结构化语义特征;对目标使用者所在的场景采集得到当前场景画面,并对当前场景画面进行视觉编码,得到当前画面特征;对图谱结构化语义特征、和当前画面特征进行注意力融合处理,得到图谱画面联合特征;获取包含目标物品描述信息的寻物自然语言指令,根据寻物自然语言指令和图谱画面联合特征确定物品查找情况。本申请实施例能够提高特定场景下的物品查找的准确性。
技术关键词
图谱
自然语言
语义特征
图像识别方法
画面
文本
节点特征
指令
场景
机器人
控制器
可读存储介质
物品特征
人工智能技术
医疗健康
注意力
视觉
处理器
存储器
系统为您推荐了相关专利信息
虚拟现实全景视频
播放系统
播放控制模块
注视点
全景视频流
告警设备
网络故障定位
故障定位模型
历史告警数据
图谱