摘要
本发明涉及信息检索领域,公开了一种文本视频的跨模态检索方法。在训练阶段,其按批次输入候选对,首先分别计算各候选对的相似度;然后,以各候选对的相似度,作为分类概率,基于狄利克雷分布,对分类概率的不确定性进行建模;以样本对所对应候选对分类概率的概率为100%,其他候选对概率为0%,构建标签,完成对模型的训练。在检索阶段,其同样按批次输入候选对,在获得相似度的同时对齐不确定性建模,利用不确定性对相似度进行修正,并以修正后的相似度进行匹配。因此,本发明的方法,能够量化文本视频对中的不确定性,以进行更可靠的相似性评估,有效提升检索性能,解决了现有技术中存在的仅依赖相似性,所导致的可靠性问题。
技术关键词
模态检索方法
视觉特征
视频
图像
序列
文本编码器
样本
局部特征提取
索引
标签
超参数
线性
矩阵
交叉注意力机制
更新模型参数
阶段
信息检索
系统为您推荐了相关专利信息
LSTM模型
ARIMA模型
变压器
滑动窗口
序列特征
无线终端
无线局域网终端
正交频分复用
OFDM时域信号
接入点
跌倒预测方法
骨骼关键点
特征提取模型
注意力
人体骨骼