摘要
本申请提供了一种面向视频文本检索的相关性感知跨模态对齐方法与装置,属于人工智能与跨模态学习技术领域。该方法包括:对视频进行稀疏采样并提取帧特征,对文本序列化后提取词特征;在所述视频特征序列和文本序列中分别拼接可学习显著性标记,通过特征编码器重组上下文信息;构建双向跨模态条件重建机制,基于显著性分数实现帧词注意力权重引导特征重建;通过高斯掩码生成候选片段,以视频片段特征为条件重构文本特征,并施加一致性约束;最终结合显著性权重计算视频文本相似度得分实现跨模态匹配。本申请通过建模帧词级别的显著性分数,能够有效克服视频内容冗余、标注噪声及粗粒度对齐的技术缺陷,最终实现准确的视频文本检索。
技术关键词
跨模态
对齐方法
超参数
交互模型
重构
标记
视频帧集合
文本编码器
视频编码器
样本
重建误差
序列
判别模块
词特征
注意力机制
电子设备
系统为您推荐了相关专利信息
护理方法
多模态图像数据
可见光图像
灰度共生矩阵
生成融合图像
动态融合机制
情感分析方法
情感分析系统
教师
蒸馏
新能源场站
分层优化控制方法
电压薄弱区域
深度学习模型
分层优化算法
矩阵
状态空间模型
连续时间系统
数据处理方法
重构