摘要
本公开提供了一种视频检索增强生成方法、装置及相关设备,涉及人工智能技术领域,该方法包括:基于用户输入的查询内容在预先设置的视频检索库中进行检索,得到目标视频片段;将查询内容与目标视频片段输入至预先训练的视觉语言模型中,输出查询内容对应的视觉描述;基于目标视频片段与视觉描述,生成查询内容对应的答案。本公开能够显著提升长视频理解任务的整体性能表现。
技术关键词
生成方法
大语言模型
视觉
关键词提取算法
语义实体
音频
预训练语言模型
答案
语音识别模型
图谱
输出模块
文本编码器
处理器
人工智能技术
视频识别
排序算法
计算机程序产品
系统为您推荐了相关专利信息
调压设备
无功补偿设备
深度确定性策略梯度
深度强化学习
生成训练数据