摘要
本发明提出了一种基于非对称语义优化的文本视频跨模态匹配方法,该方法通过多粒度特征提取和跨模态交互,利用文本编码模型提取文本的全局和局部特征,图像视觉编码模型提取视频的帧层次和图像块层次特征。通过跨模态注意力模块,文本与视频帧之间的全局匹配相似度被有效计算,并结合细粒度特征进一步优化视频特征表示。最终,通过计算文本特征与视频特征的余弦相似度,完成文本与视频的精准匹配。此外,采用知识驱动的文本编辑机制生成负样本,有效增强了模型的鲁棒性。该方法通过综合运用全局和局部特征、细粒度语义交互以及非对称语义优化,显著提升了文本与视频的匹配精度,能够更好地处理复杂的跨模态检索任务,具有较强的实际应用价值。
技术关键词
跨模态匹配方法
交互特征
图像块特征
语义
视频帧特征
细粒度特征
注意力
样本
矩阵
视频帧信息
文本特征向量
文本编码器
线性