一种基于非对称语义优化的文本视频跨模态匹配方法

AITNT
正文
推荐专利
一种基于非对称语义优化的文本视频跨模态匹配方法
申请号:CN202411868548
申请日期:2024-12-18
公开号:CN119719800B
公开日期:2025-10-10
类型:发明专利
摘要
本发明提出了一种基于非对称语义优化的文本视频跨模态匹配方法,该方法通过多粒度特征提取和跨模态交互,利用文本编码模型提取文本的全局和局部特征,图像视觉编码模型提取视频的帧层次和图像块层次特征。通过跨模态注意力模块,文本与视频帧之间的全局匹配相似度被有效计算,并结合细粒度特征进一步优化视频特征表示。最终,通过计算文本特征与视频特征的余弦相似度,完成文本与视频的精准匹配。此外,采用知识驱动的文本编辑机制生成负样本,有效增强了模型的鲁棒性。该方法通过综合运用全局和局部特征、细粒度语义交互以及非对称语义优化,显著提升了文本与视频的匹配精度,能够更好地处理复杂的跨模态检索任务,具有较强的实际应用价值。
技术关键词
跨模态匹配方法 交互特征 图像块特征 语义 视频帧特征 细粒度特征 注意力 样本 矩阵 视频帧信息 文本特征向量 文本编码器 线性
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号