一种基于大语言模型优化的多模态视频问答方法及装置

AITNT
正文
推荐专利
一种基于大语言模型优化的多模态视频问答方法及装置
申请号:CN202411645309
申请日期:2024-11-18
公开号:CN119691224A
公开日期:2025-03-25
类型:发明专利
摘要
本发明公开了一种基于大语言模型优化的多模态视频问答方法及装置,本发明采用了CoVGT基础框架,分别对视频特征提取和文本输入进行了优化,并添加了视频问答模型输出优化器,该方法包括视频特征提取、文本特征提取、特征融合、初步答案预测、相关样例生成、Prompt文本生成和最终答案生成。本发明用GPT‑3类比中学习的特性,使用相关样例生成、Prompt文本生成和最终答案生成设计了答案优化器,与基础模型相比,模型准确率有较大的提升。
技术关键词
视频问答方法 大语言模型 答案 视频特征提取 文本 视频摘要模型 融合特征 问答模型 令牌 跨模态 优化器 集成策略 问答装置 图像 检测器 代表 注意力机制 处理器 可读存储介质
系统为您推荐了相关专利信息
1
特征提取方法、模型训练方法、对象推荐方法、计算设备、存储介质及程序产品
样本 模型训练方法 节点 模态特征 神经网络模型
2
一种化学元素通用编码方法、材料性能预测和成分优化方法
通用编码方法 合金材料 化学式 BERT模型 随机森林
3
一种基于句子语义感知的数据管理方法及相关设备
令牌 语义向量 数据管理方法 注意力 文本
4
一种基于隐层激活的偏见幻觉检测方法
分类器 答案 构建训练集 sigmoid函数 前馈神经网络
5
代码生成方法、装置、计算机设备及存储介质
复杂度 代码生成方法 指标 指令 抽象语法树
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号