基于Mamba的多标签跨模态视频-文本检索方法及存储介质

AITNT
正文
推荐专利
基于Mamba的多标签跨模态视频-文本检索方法及存储介质
申请号:CN202510860267
申请日期:2025-06-25
公开号:CN120780871A
公开日期:2025-10-14
类型:发明专利
摘要
本发明公开了一种基于Mamba的多标签跨模态视频‑文本检索方法,所述方法通过使用Mamba和Vision Mamba对文本和视频帧进行编码,使得模型能够有效地学习到长距离的依赖关系,克服了传统模型在处理长视频序列数据时的缺陷,能够更准确地把握视频中前后内容的关联性,显著提高了视频‑文本检索的准确性和可靠性;将多标签按序输入Mamba模型进行特征提取,能够更加充分地利用多级标签所包含的丰富信息,进一步提高视频文本检索模型的性能;利用视频‑文本交互模块使模型在低级特征和高级语义层面均实现模态交互,使用Mamba模型构建视频和文本之间的多模态信息交互和关联,并结合视频‑文本双向检索损失函数最大化视频特征和文本特征的相似性,解决了视频和文本数据的模态鸿沟问题。
技术关键词
文本检索方法 跨模态 标签文本 融合特征 序列特征 视频帧 多标签 非暂态计算机可读存储介质 Softmax函数 语义层面 注意力 编码 矩阵 双模态 数据 训练集
系统为您推荐了相关专利信息
1
一种连续语音识别的空调控制方法、装置及计算机存储介质
语音识别模型 连续语音识别 空调控制方法 时间序列特征 训练样本集
2
一种基于小波高频增强的医学图像跨模态生成方法及装置
跨模态 输出特征 编码器 解码器 分支
3
一种无人机安监督查图像处理方法、系统、设备及介质
图像处理模型 图像处理方法 残差模块 融合特征 生成特征
4
音频数据的处理方法及装置
音频特征 非线性变换方法 调制特征 数据 融合特征
5
一种电网监控视频质量增强方法、系统、设备及存储介质
视频帧 多尺度特征提取 融合特征 卷积算法 频率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号