一种基于大语言模型优化的多模态视频问答方法及装置

正文

推荐专利

申请号：CN202411645309

申请日期：2024-11-18

公开号：CN119691224A

公开日期：2025-03-25

类型：发明专利

摘要

本发明公开了一种基于大语言模型优化的多模态视频问答方法及装置，本发明采用了CoVGT基础框架，分别对视频特征提取和文本输入进行了优化，并添加了视频问答模型输出优化器，该方法包括视频特征提取、文本特征提取、特征融合、初步答案预测、相关样例生成、Prompt文本生成和最终答案生成。本发明用GPT‑3类比中学习的特性，使用相关样例生成、Prompt文本生成和最终答案生成设计了答案优化器，与基础模型相比，模型准确率有较大的提升。

技术关键词

视频问答方法大语言模型答案视频特征提取文本视频摘要模型融合特征问答模型令牌跨模态优化器集成策略问答装置图像检测器代表注意力机制处理器可读存储介质

系统为您推荐了相关专利信息

特征提取方法、模型训练方法、对象推荐方法、计算设备、存储介质及程序产品

样本模型训练方法节点模态特征神经网络模型

一种化学元素通用编码方法、材料性能预测和成分优化方法

通用编码方法合金材料化学式 BERT模型随机森林

一种基于句子语义感知的数据管理方法及相关设备

令牌语义向量数据管理方法注意力文本

一种基于隐层激活的偏见幻觉检测方法

分类器答案构建训练集 sigmoid函数前馈神经网络

代码生成方法、装置、计算机设备及存储介质

复杂度代码生成方法指标指令抽象语法树

一种基于大语言模型优化的多模态视频问答方法及装置

站点导航

APP 下载