一种基于视觉语言转化的文本视频检索方法

正文

推荐专利

一种基于视觉语言转化的文本视频检索方法

申请号：CN202510412185

申请日期：2025-04-02

公开号：CN120256656A

公开日期：2025-07-04

类型：发明专利

摘要

本发明公开了一种基于视觉语言转化的文本视频检索方法，属于视觉语言处理技术领域，包括以下步骤：S1、采集用户的文本查询，并获取视觉库的各个候选图像或视频，为文本查询生成检索结果，并计算文本查询与检索结果之间的第一相似性矩阵；S2、为检索结果的各个候选项生成对应的长篇描述和查询问题；S3、为各个查询问题生成查询答案；S4、生成第二相似性矩阵；S5、根据第一相似性矩阵和第二相似性矩阵，确定文本查询的最相关样本，生成最终检索结果。本发明通过将视觉内容转化为长文本描述来解决文本与视觉内容之间的语义冗余和粒度不一致的问题，能够在不更新现有视觉语言模型的前提下，提升文本与视觉检索的性能。

技术关键词

视频检索方法文本视觉矩阵答案图像表达式样本语义冗余

系统为您推荐了相关专利信息

考虑高程影响的地震动空间相关模型拟合方法

模型拟合方法地震风险评估地理信息数据库效应参数

一种便于角度调节的视觉检查训练仪及其使用方法

视觉检查训练仪控制面板模块电源系统模块组件模块光圈

一种基于二阶段特征选择的物联网设备识别方法及装置

特征选择机制识别方法表格物联网设备识别决策

一种应用于数值推理任务的多维度示例选择方法和系统

大语言模型正确率复杂度数值文本

一种空地井复杂地质精细化建模方法

建模方法四边形顶点协方差矩阵轮廓

一种基于视觉语言转化的文本视频检索方法

站点导航

APP 下载