摘要
一种基于双向协同引导注意力的视听事件识别与定位方法、系统、设备及介质,其方法为:构建基于双向协同引导注意力的视听事件识别与定位模型;设计损失函数,通过损失函数不断训练和优化基于双向协同引导注意力的视听事件识别与定位模型,当损失函数最小时,得到最优的基于双向协同引导注意力的视听事件识别与定位模型;将目标视频输入到最优的基于双向协同引导注意力的视听事件识别与定位模型中,得到最优的目标事件识别准确度和目标事件的定位信息;系统、设备及介质用于实现该方法;本发明能够实现有效的视听关系学习,从而提高了视听事件识别与定位的准确度。
技术关键词
视觉特征
事件识别
注意力
听觉
视听
校准特征
定位方法
融合特征
双向长短期记忆
音频
双线性
多模态
超参数
矩阵
分支
信号
视频
卷积神经网络提取
识别模块