摘要
本发明提供了一种跨模态牲畜行为检索方法及装置,涉及文本‑视频检索技术领域。该方法包括:获取牲畜视频和用户输入的输入文本,输入文本包括牲畜行为事件;提取输入文本中的目标句子、目标句子的名词和动词;基于牲畜行为检索标签对应的单词集合,确定目标句子的名词的检索标签和动词的检索标签;从视频‑文本多通道特征集合中,查找与名词的检索标签、动词的检索标签和目标句子的句子结构匹配的视频特征;基于匹配的视频特征,检索牲畜视频中的牲畜行为事件。基于该方案,可以提高基于输入文本从牲畜视频中检索牲畜行为事件的准确性。
技术关键词
检索标签
多通道特征
牲畜
文本
同义词
语义
运动特征
度函数
跨模态
检索方法
分层特征
特征提取模块
检索装置
视频检索技术
数据获取模块
对象
注意力机制
融合特征