一种面向视频文本检索的相关性感知跨模态对齐方法与装置

AITNT
正文
推荐专利
一种面向视频文本检索的相关性感知跨模态对齐方法与装置
申请号:CN202510989724
申请日期:2025-07-17
公开号:CN120929639A
公开日期:2025-11-11
类型:发明专利
摘要
本申请提供了一种面向视频文本检索的相关性感知跨模态对齐方法与装置,属于人工智能与跨模态学习技术领域。该方法包括:对视频进行稀疏采样并提取帧特征,对文本序列化后提取词特征;在所述视频特征序列和文本序列中分别拼接可学习显著性标记,通过特征编码器重组上下文信息;构建双向跨模态条件重建机制,基于显著性分数实现帧词注意力权重引导特征重建;通过高斯掩码生成候选片段,以视频片段特征为条件重构文本特征,并施加一致性约束;最终结合显著性权重计算视频文本相似度得分实现跨模态匹配。本申请通过建模帧词级别的显著性分数,能够有效克服视频内容冗余、标注噪声及粗粒度对齐的技术缺陷,最终实现准确的视频文本检索。
技术关键词
跨模态 对齐方法 超参数 交互模型 重构 标记 视频帧集合 文本编码器 视频编码器 样本 重建误差 序列 判别模块 词特征 注意力机制 电子设备
系统为您推荐了相关专利信息
1
基于属性异构图的主机入侵检测方法及系统
主机入侵检测方法 异构 节点 特征提取模型 日志
2
基于伤口图像的自适应分析护理方法
护理方法 多模态图像数据 可见光图像 灰度共生矩阵 生成融合图像
3
基于知识蒸馏和动态融合机制的多模态情感分析方法及系统
动态融合机制 情感分析方法 情感分析系统 教师 蒸馏
4
一种区域协调自适应的新能源场站无功分层优化控制方法
新能源场站 分层优化控制方法 电压薄弱区域 深度学习模型 分层优化算法
5
一种考虑紊流激励的颤振试飞扫频响应数据处理方法
矩阵 状态空间模型 连续时间系统 数据处理方法 重构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号