基于Mamba的多标签跨模态视频-文本检索方法及存储介质

正文

推荐专利

申请号：CN202510860267

申请日期：2025-06-25

公开号：CN120780871A

公开日期：2025-10-14

类型：发明专利

摘要

本发明公开了一种基于Mamba的多标签跨模态视频‑文本检索方法，所述方法通过使用Mamba和Vision Mamba对文本和视频帧进行编码，使得模型能够有效地学习到长距离的依赖关系，克服了传统模型在处理长视频序列数据时的缺陷，能够更准确地把握视频中前后内容的关联性，显著提高了视频‑文本检索的准确性和可靠性；将多标签按序输入Mamba模型进行特征提取，能够更加充分地利用多级标签所包含的丰富信息，进一步提高视频文本检索模型的性能；利用视频‑文本交互模块使模型在低级特征和高级语义层面均实现模态交互，使用Mamba模型构建视频和文本之间的多模态信息交互和关联，并结合视频‑文本双向检索损失函数最大化视频特征和文本特征的相似性，解决了视频和文本数据的模态鸿沟问题。

技术关键词

文本检索方法跨模态标签文本融合特征序列特征视频帧多标签非暂态计算机可读存储介质 Softmax函数语义层面注意力编码矩阵双模态数据训练集

系统为您推荐了相关专利信息

一种连续语音识别的空调控制方法、装置及计算机存储介质

语音识别模型连续语音识别空调控制方法时间序列特征训练样本集

一种基于小波高频增强的医学图像跨模态生成方法及装置

跨模态输出特征编码器解码器分支

一种无人机安监督查图像处理方法、系统、设备及介质

图像处理模型图像处理方法残差模块融合特征生成特征

音频数据的处理方法及装置

音频特征非线性变换方法调制特征数据融合特征

一种电网监控视频质量增强方法、系统、设备及存储介质

视频帧多尺度特征提取融合特征卷积算法频率

基于Mamba的多标签跨模态视频-文本检索方法及存储介质

站点导航

APP 下载