摘要
本申请涉及一种多模态模型处理方法、装置、设备、存储介质和程序产品。所述方法包括:依据多模态数据中的视觉数据和听觉数据,生成所述视觉数据的描述信息;基于所述描述信息生成包括问题和答案选项的样题信息;根据所述样题信息、所述视觉数据和所述听觉数据,生成答案和所述答案对应的推理过程信息;在所述答案正确的情况下,基于所述视觉数据、所述听觉数据、所述答案正确时对应的所述样题信息和所述推理过程信息,对预训练的多模态模型进行训练,获得目标多模态模型。采用本方法能够有效缓解多模态模型的幻觉问题,从而提高多模态模型的推理准确性。
技术关键词
多模态
视频帧特征
数据
音频特征
听觉
视觉
特征提取网络
融合特征
生成答案
音视频
序列
图像
关键词
标签
计算机程序产品
系统为您推荐了相关专利信息
车辆控制方法
制氧装置
神经网络模型
参数
二氧化碳传感器
水下三维重建方法
运载平台
数据处理模块
点云信息
运动感知模块
气体检测仪
抗电磁干扰系统
抗干扰模块
抗电磁干扰装置
抗电磁干扰方法