摘要
本发明公开了一种基于视觉语言转化的文本视频检索方法,属于视觉语言处理技术领域,包括以下步骤:S1、采集用户的文本查询,并获取视觉库的各个候选图像或视频,为文本查询生成检索结果,并计算文本查询与检索结果之间的第一相似性矩阵;S2、为检索结果的各个候选项生成对应的长篇描述和查询问题;S3、为各个查询问题生成查询答案;S4、生成第二相似性矩阵;S5、根据第一相似性矩阵和第二相似性矩阵,确定文本查询的最相关样本,生成最终检索结果。本发明通过将视觉内容转化为长文本描述来解决文本与视觉内容之间的语义冗余和粒度不一致的问题,能够在不更新现有视觉语言模型的前提下,提升文本与视觉检索的性能。
技术关键词
视频检索方法
文本
视觉
矩阵
答案
图像
表达式
样本
语义
冗余
系统为您推荐了相关专利信息
模型拟合方法
地震风险评估
地理信息数据库
效应
参数
视觉检查训练仪
控制面板模块
电源系统模块
组件模块
光圈
特征选择机制
识别方法
表格
物联网设备识别
决策