摘要
本发明公开了一种基于Mamba的多标签跨模态视频‑文本检索方法,所述方法通过使用Mamba和Vision Mamba对文本和视频帧进行编码,使得模型能够有效地学习到长距离的依赖关系,克服了传统模型在处理长视频序列数据时的缺陷,能够更准确地把握视频中前后内容的关联性,显著提高了视频‑文本检索的准确性和可靠性;将多标签按序输入Mamba模型进行特征提取,能够更加充分地利用多级标签所包含的丰富信息,进一步提高视频文本检索模型的性能;利用视频‑文本交互模块使模型在低级特征和高级语义层面均实现模态交互,使用Mamba模型构建视频和文本之间的多模态信息交互和关联,并结合视频‑文本双向检索损失函数最大化视频特征和文本特征的相似性,解决了视频和文本数据的模态鸿沟问题。
技术关键词
文本检索方法
跨模态
标签文本
融合特征
序列特征
视频帧
多标签
非暂态计算机可读存储介质
Softmax函数
语义层面
注意力
编码
矩阵
双模态
数据
训练集
系统为您推荐了相关专利信息
语音识别模型
连续语音识别
空调控制方法
时间序列特征
训练样本集
图像处理模型
图像处理方法
残差模块
融合特征
生成特征
音频特征
非线性变换方法
调制特征
数据
融合特征