摘要
本申请提供一种视频理解的处理方法、装置、设备以及存储介质,属于视频理解的技术领域。所述方法包括获取目标视频和目标提问文本,并根据所述目标提问文本,生成视频段检索指示文本;将所述目标视频、目标提问文本和所述视频段检索指示文本输入所述粗粒度视频大语言模型,所述视频段检索指示文本用于指示所述粗粒度视频大语言模型在所述目标视频中提取与所述目标提问文本相关的关键片段;将所述粗粒度视频大语言模型输出的所述关键片段和所述目标提问文本输入所述细粒度视频大语言模型,所述细粒度视频大语言模型用于根据所述关键片段和所述目标提问文本输出最终回答。本申请旨在提高视频理解结果准确性。
技术关键词
大语言模型
文本
视频段
非易失性可读存储介质
样本
强化学习策略
视觉
处理器
存储器
标签
电子设备
模块
系统为您推荐了相关专利信息
答案生成方法
建立倒排索引
工业
命名实体识别
节点
变电站运行数据
重构误差
编码器
萤火虫优化算法
故障预警方法
电池充电数据
充电截止电压
电池剩余容量
曲线
样本
样本检测方法
分层注意力
样本检测系统
特征加权融合
损失函数优化
茶叶提取
等级评定方法
模式识别方法
代谢指纹图谱
指纹图谱建立