视频理解问题的答案生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品

正文

推荐专利

申请号：CN202411933160

申请日期：2024-12-26

公开号：CN119357340B

公开日期：2025-03-25

类型：发明专利

摘要

本申请涉及视频理解技术领域，特别是涉及一种视频理解问题的答案生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括：获取长视频数据以及视频理解问题；将长视频数据分割为多个短视频片段，采用短期视觉字幕生成器基于每个短视频片段的图像信息，生成对应的描述文本；按照每个短视频片段对应的时间顺序依次拼接描述文本得到目标描述文本；将目标描述文本与视频理解问题输入至大语言模型，得到大语言模型基于目标描述文本生成的与视频理解问题对应的答案。采用本方法能够解决现有的长视频理解模型推理训练成本高且周期长的问题，起到简化长视频理解的复杂性，提高长视频理解中的问答生成效率以及准确率的技术效果。

技术关键词

文本短视频大语言模型字幕样本答案生成方法图像解码器注意力计算机程序产品机制视觉计算机设备可读存储介质视频帧数据

系统为您推荐了相关专利信息

一种基于游客评价的旅游服务质量动态优化方法

动态优化方法注意力机制大数据分析模型量表服务质量信息

一种配变负荷类型识别方法及电子设备

随机森林模型神经网络模型训练负荷识别特征样本

基于建筑用能模式识别及多任务学习的柔性负荷预测方法

柔性负荷预测负荷预测模型模式识别多任务耦合特征

基于大模型的数据处理方法、设备、存储介质及程序产品

分析工具大语言模型数据处理方法模板存储器

一种股骨头坏死临床决策支持系统及装置

股骨头坏死医学影像信息临床决策支持系统医学知识图谱数据接收模块

视频理解问题的答案生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品

站点导航

APP 下载