一种基于非对称语义优化的文本视频跨模态匹配方法

正文

推荐专利

申请号：CN202411868548

申请日期：2024-12-18

公开号：CN119719800B

公开日期：2025-10-10

类型：发明专利

摘要

本发明提出了一种基于非对称语义优化的文本视频跨模态匹配方法，该方法通过多粒度特征提取和跨模态交互，利用文本编码模型提取文本的全局和局部特征，图像视觉编码模型提取视频的帧层次和图像块层次特征。通过跨模态注意力模块，文本与视频帧之间的全局匹配相似度被有效计算，并结合细粒度特征进一步优化视频特征表示。最终，通过计算文本特征与视频特征的余弦相似度，完成文本与视频的精准匹配。此外，采用知识驱动的文本编辑机制生成负样本，有效增强了模型的鲁棒性。该方法通过综合运用全局和局部特征、细粒度语义交互以及非对称语义优化，显著提升了文本与视频的匹配精度，能够更好地处理复杂的跨模态检索任务，具有较强的实际应用价值。

技术关键词

跨模态匹配方法交互特征图像块特征语义视频帧特征细粒度特征注意力样本矩阵视频帧信息文本特征向量文本编码器线性

一种基于非对称语义优化的文本视频跨模态匹配方法

站点导航

APP 下载