摘要
本发明公开了基于多粒度对齐的文本和视频的相似度计算方法及系统。通过深入分析文本和视频包含的层级特征,设计由粗到细的多粒度对齐框架,从而实现更精细化、更准确的语义匹配。特别是在细粒度对齐方面,通过对文本的词级特征和视频的块级特征进行聚合,以获得文本的短语级特征与视频的物体级特征,基于这两个特征实现文本与视频的细粒度对齐,使得细粒度语义对齐更加合理,从而有效地解决文本视频检索存在的细节信息缺失和跨模态语义差距的问题。
技术关键词
视频
文本编码器
对齐模块
度计算方法
细粒度特征
损失函数计算方法
交叉注意力机制
物体
信息熵
矩阵
亲和力
Softmax函数
数据
序列
三元组
时序
特征提取模块
语义
系统为您推荐了相关专利信息
智能监控系统
数据处理平台
数据采集设备
循环神经网络模型
云服务器