基于多粒度对齐的文本和视频的相似度计算方法及系统

AITNT
正文
推荐专利
基于多粒度对齐的文本和视频的相似度计算方法及系统
申请号:CN202411522201
申请日期:2024-10-29
公开号:CN119577184B
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了基于多粒度对齐的文本和视频的相似度计算方法及系统。通过深入分析文本和视频包含的层级特征,设计由粗到细的多粒度对齐框架,从而实现更精细化、更准确的语义匹配。特别是在细粒度对齐方面,通过对文本的词级特征和视频的块级特征进行聚合,以获得文本的短语级特征与视频的物体级特征,基于这两个特征实现文本与视频的细粒度对齐,使得细粒度语义对齐更加合理,从而有效地解决文本视频检索存在的细节信息缺失和跨模态语义差距的问题。
技术关键词
视频 文本编码器 对齐模块 度计算方法 细粒度特征 损失函数计算方法 交叉注意力机制 物体 信息熵 矩阵 亲和力 Softmax函数 数据 序列 三元组 时序 特征提取模块 语义
系统为您推荐了相关专利信息
1
一种基于5G物联网的智能监控系统和方法
智能监控系统 数据处理平台 数据采集设备 循环神经网络模型 云服务器
2
一种基于法律概念谱系的法律文本智能解析方法
智能解析方法 概念 图谱 命名实体识别 自然语言
3
基于人工智能的物业安全防控方法及系统
影像 注意力 视频帧特征 状态空间模型 特征值
4
一种滑坡涌浪物理试验爬高监测装置和方法
支座 悬臂 三角剖分算法 后手机 物理
5
一种嵌入式具身智能视觉语言大模型知识库构建及应用方法、设备、介质及产品
物体 多模态 视觉 文本编码器 图像编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号