视频理解问题的答案生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品

AITNT
正文
推荐专利
视频理解问题的答案生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品
申请号:CN202411933160
申请日期:2024-12-26
公开号:CN119357340B
公开日期:2025-03-25
类型:发明专利
摘要
本申请涉及视频理解技术领域,特别是涉及一种视频理解问题的答案生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:获取长视频数据以及视频理解问题;将长视频数据分割为多个短视频片段,采用短期视觉字幕生成器基于每个短视频片段的图像信息,生成对应的描述文本;按照每个短视频片段对应的时间顺序依次拼接描述文本得到目标描述文本;将目标描述文本与视频理解问题输入至大语言模型,得到大语言模型基于目标描述文本生成的与视频理解问题对应的答案。采用本方法能够解决现有的长视频理解模型推理训练成本高且周期长的问题,起到简化长视频理解的复杂性,提高长视频理解中的问答生成效率以及准确率的技术效果。
技术关键词
文本 短视频 大语言模型 字幕 样本 答案生成方法 图像解码器 注意力 计算机程序产品 机制 视觉 计算机设备 可读存储介质 视频帧 数据
系统为您推荐了相关专利信息
1
一种基于游客评价的旅游服务质量动态优化方法
动态优化方法 注意力机制 大数据分析模型 量表 服务质量信息
2
一种配变负荷类型识别方法及电子设备
随机森林模型 神经网络模型训练 负荷 识别特征 样本
3
基于建筑用能模式识别及多任务学习的柔性负荷预测方法
柔性负荷预测 负荷预测模型 模式识别 多任务 耦合特征
4
基于大模型的数据处理方法、设备、存储介质及程序产品
分析工具 大语言模型 数据处理方法 模板 存储器
5
一种股骨头坏死临床决策支持系统及装置
股骨头坏死 医学影像信息 临床决策支持系统 医学知识图谱 数据接收模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号