基于多粒度对齐的文本和视频的相似度计算方法及系统

正文

推荐专利

申请号：CN202411522201

申请日期：2024-10-29

公开号：CN119577184B

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了基于多粒度对齐的文本和视频的相似度计算方法及系统。通过深入分析文本和视频包含的层级特征，设计由粗到细的多粒度对齐框架，从而实现更精细化、更准确的语义匹配。特别是在细粒度对齐方面，通过对文本的词级特征和视频的块级特征进行聚合，以获得文本的短语级特征与视频的物体级特征，基于这两个特征实现文本与视频的细粒度对齐，使得细粒度语义对齐更加合理，从而有效地解决文本视频检索存在的细节信息缺失和跨模态语义差距的问题。

技术关键词

视频文本编码器对齐模块度计算方法细粒度特征损失函数计算方法交叉注意力机制物体信息熵矩阵亲和力 Softmax函数数据序列三元组时序特征提取模块语义

系统为您推荐了相关专利信息

一种基于5G物联网的智能监控系统和方法

智能监控系统数据处理平台数据采集设备循环神经网络模型云服务器

一种基于法律概念谱系的法律文本智能解析方法

智能解析方法概念图谱命名实体识别自然语言

基于人工智能的物业安全防控方法及系统

影像注意力视频帧特征状态空间模型特征值

一种滑坡涌浪物理试验爬高监测装置和方法

支座悬臂三角剖分算法后手机物理

一种嵌入式具身智能视觉语言大模型知识库构建及应用方法、设备、介质及产品

物体多模态视觉文本编码器图像编码器

基于多粒度对齐的文本和视频的相似度计算方法及系统

站点导航

APP 下载