摘要
本发明公开了一种基于大语言模型优化的多模态视频问答方法及装置,本发明采用了CoVGT基础框架,分别对视频特征提取和文本输入进行了优化,并添加了视频问答模型输出优化器,该方法包括视频特征提取、文本特征提取、特征融合、初步答案预测、相关样例生成、Prompt文本生成和最终答案生成。本发明用GPT‑3类比中学习的特性,使用相关样例生成、Prompt文本生成和最终答案生成设计了答案优化器,与基础模型相比,模型准确率有较大的提升。
技术关键词
视频问答方法
大语言模型
答案
视频特征提取
文本
视频摘要模型
融合特征
问答模型
令牌
跨模态
优化器
集成策略
问答装置
图像
检测器
代表
注意力机制
处理器
可读存储介质
系统为您推荐了相关专利信息
通用编码方法
合金材料
化学式
BERT模型
随机森林
分类器
答案
构建训练集
sigmoid函数
前馈神经网络