摘要
发明提供一种目标定位方法、装置、电子设备及计算机存储介质,涉及智能数据分析技术领域,在本发明实施例中,对于按照出现台词的时间提取的视觉特征和音频特征利用交叉注意力机制和自注意力机制进行特征融合和增强,以提高后需利用预先建立的目标定位模型进行预测时,输出的目标定位结果的精确度,实现基于提高精确度的目标定位结果对正在说话的目标进行精确定位,提升正在说话的目标的识别准确率的目的。
技术关键词
音视频
交叉注意力机制
音频特征
样本
视觉特征
定位方法
计算机存储介质
网络模型训练
智能数据分析技术
输入神经网络模型
卷积神经网络模型
电子设备
时序
深度学习模型