一种基于视觉语言转化的文本视频检索方法

AITNT
正文
推荐专利
一种基于视觉语言转化的文本视频检索方法
申请号:CN202510412185
申请日期:2025-04-02
公开号:CN120256656A
公开日期:2025-07-04
类型:发明专利
摘要
本发明公开了一种基于视觉语言转化的文本视频检索方法,属于视觉语言处理技术领域,包括以下步骤:S1、采集用户的文本查询,并获取视觉库的各个候选图像或视频,为文本查询生成检索结果,并计算文本查询与检索结果之间的第一相似性矩阵;S2、为检索结果的各个候选项生成对应的长篇描述和查询问题;S3、为各个查询问题生成查询答案;S4、生成第二相似性矩阵;S5、根据第一相似性矩阵和第二相似性矩阵,确定文本查询的最相关样本,生成最终检索结果。本发明通过将视觉内容转化为长文本描述来解决文本与视觉内容之间的语义冗余和粒度不一致的问题,能够在不更新现有视觉语言模型的前提下,提升文本与视觉检索的性能。
技术关键词
视频检索方法 文本 视觉 矩阵 答案 图像 表达式 样本 语义 冗余
系统为您推荐了相关专利信息
1
考虑高程影响的地震动空间相关模型拟合方法
模型拟合方法 地震风险评估 地理信息数据库 效应 参数
2
一种便于角度调节的视觉检查训练仪及其使用方法
视觉检查训练仪 控制面板模块 电源系统模块 组件模块 光圈
3
一种基于二阶段特征选择的物联网设备识别方法及装置
特征选择机制 识别方法 表格 物联网设备识别 决策
4
一种应用于数值推理任务的多维度示例选择方法和系统
大语言模型 正确率 复杂度 数值 文本
5
一种空地井复杂地质精细化建模方法
建模方法 四边形 顶点 协方差矩阵 轮廓
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号