多模态模型处理方法、装置、设备、存储介质和程序产品

正文

推荐专利

申请号：CN202510724960

申请日期：2025-05-30

公开号：CN120542576A

公开日期：2025-08-26

类型：发明专利

摘要

本申请涉及一种多模态模型处理方法、装置、设备、存储介质和程序产品。所述方法包括：依据多模态数据中的视觉数据和听觉数据，生成所述视觉数据的描述信息；基于所述描述信息生成包括问题和答案选项的样题信息；根据所述样题信息、所述视觉数据和所述听觉数据，生成答案和所述答案对应的推理过程信息；在所述答案正确的情况下，基于所述视觉数据、所述听觉数据、所述答案正确时对应的所述样题信息和所述推理过程信息，对预训练的多模态模型进行训练，获得目标多模态模型。采用本方法能够有效缓解多模态模型的幻觉问题，从而提高多模态模型的推理准确性。

技术关键词

多模态视频帧特征数据音频特征听觉视觉特征提取网络融合特征生成答案音视频序列图像关键词标签计算机程序产品

系统为您推荐了相关专利信息

车辆控制方法、装置、控制器、介质、产品及车辆

车辆控制方法制氧装置神经网络模型参数二氧化碳传感器

一种基于UUV巡航与二维声纳的水下三维重建方法与系统

水下三维重建方法运载平台数据处理模块点云信息运动感知模块

基于注入式电性源瞬变电磁透射堤坝渗漏探测方法

堤坝粒子群优化算法电磁关断时间信号

一种基于作业表的雷达自适应控制系统及方法

子模块队列策略雷达控制系统

气体检测仪抗电磁干扰系统、方法及设备

气体检测仪抗电磁干扰系统抗干扰模块抗电磁干扰装置抗电磁干扰方法

多模态模型处理方法、装置、设备、存储介质和程序产品

站点导航

APP 下载