一种面向视频文本检索的相关性感知跨模态对齐方法与装置

正文

推荐专利

申请号：CN202510989724

申请日期：2025-07-17

公开号：CN120929639A

公开日期：2025-11-11

类型：发明专利

摘要

本申请提供了一种面向视频文本检索的相关性感知跨模态对齐方法与装置，属于人工智能与跨模态学习技术领域。该方法包括：对视频进行稀疏采样并提取帧特征，对文本序列化后提取词特征；在所述视频特征序列和文本序列中分别拼接可学习显著性标记，通过特征编码器重组上下文信息；构建双向跨模态条件重建机制，基于显著性分数实现帧词注意力权重引导特征重建；通过高斯掩码生成候选片段，以视频片段特征为条件重构文本特征，并施加一致性约束；最终结合显著性权重计算视频文本相似度得分实现跨模态匹配。本申请通过建模帧词级别的显著性分数，能够有效克服视频内容冗余、标注噪声及粗粒度对齐的技术缺陷，最终实现准确的视频文本检索。

技术关键词

跨模态对齐方法超参数交互模型重构标记视频帧集合文本编码器视频编码器样本重建误差序列判别模块词特征注意力机制电子设备

系统为您推荐了相关专利信息

基于属性异构图的主机入侵检测方法及系统

主机入侵检测方法异构节点特征提取模型日志

基于伤口图像的自适应分析护理方法

护理方法多模态图像数据可见光图像灰度共生矩阵生成融合图像

基于知识蒸馏和动态融合机制的多模态情感分析方法及系统

动态融合机制情感分析方法情感分析系统教师蒸馏

一种区域协调自适应的新能源场站无功分层优化控制方法

新能源场站分层优化控制方法电压薄弱区域深度学习模型分层优化算法

一种考虑紊流激励的颤振试飞扫频响应数据处理方法

矩阵状态空间模型连续时间系统数据处理方法重构

一种面向视频文本检索的相关性感知跨模态对齐方法与装置

站点导航

APP 下载