摘要
本申请公开了一种目标检测方法、装置、设备、存储介质及程序产品。其中,该方法应用于智能可穿戴设备,包括:获取用户输出的语音信息和智能可穿戴设备拍摄的第一图像,语音信息中包括目标对象的信息;在第一图像中确定多个实体对象各自对应的目标区域;按照多个目标区域剪裁第一图像,得到多个第二图像;提取多个第二图像分别对应的视觉特征,得到多个第一视觉特征,及从语音信息中提取目标对象的第一文本特征;基于多个第一视觉特征中与第一文本特征满足预设相似条件的目标视觉特征对应的第二图像,检测目标对象。根据本申请实施例的目标检测方法,能够实现根据用户意图从整个图像中检测到特定的目标对象,提升用户对智能可穿戴设备的使用体验。
技术关键词
视觉特征
智能可穿戴设备
文本编码器
对象
图像
样本
计算机程序指令
实体
列表
像素点
计算机程序产品
坐标
自动语音识别
图样
电子设备
语义
学生
可读存储介质
系统为您推荐了相关专利信息
协同分析系统
多模态数据采集
神经网络融合技术
信号特征提取
定向麦克风
文本编码器
模型训练方法
图像内容特征
风格
客户端
注意力
图像去噪模型
输出特征
解码单元
电子计算机断层扫描