摘要
本申请涉及视频理解技术领域,特别是涉及一种视频理解问题的答案生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:获取长视频数据以及视频理解问题;将长视频数据分割为多个短视频片段,采用短期视觉字幕生成器基于每个短视频片段的图像信息,生成对应的描述文本;按照每个短视频片段对应的时间顺序依次拼接描述文本得到目标描述文本;将目标描述文本与视频理解问题输入至大语言模型,得到大语言模型基于目标描述文本生成的与视频理解问题对应的答案。采用本方法能够解决现有的长视频理解模型推理训练成本高且周期长的问题,起到简化长视频理解的复杂性,提高长视频理解中的问答生成效率以及准确率的技术效果。
技术关键词
文本
短视频
大语言模型
字幕
样本
答案生成方法
图像解码器
注意力
计算机程序产品
机制
视觉
计算机设备
可读存储介质
视频帧
数据
系统为您推荐了相关专利信息
动态优化方法
注意力机制
大数据分析模型
量表
服务质量信息
随机森林模型
神经网络模型训练
负荷
识别特征
样本
柔性负荷预测
负荷预测模型
模式识别
多任务
耦合特征
股骨头坏死
医学影像信息
临床决策支持系统
医学知识图谱
数据接收模块