摘要
本申请涉及多模态人工智能与智能数据处理技术领域,特别涉及一种基于多模态大模型的视觉问答自动化标注方法及装置,其中,方法包括:采集用于构建视觉问答的不同场景的基础图像数据;预处理基础图像数据,构建图片内容实例列表,并关联相关的词条;基于相关的词条,对图片内容实例列表进行筛选与修正,生成视觉问答对,构建视觉问答对数据集;判断视觉问答对数据集是否满足预设质量条件,根据视觉问答对数据集生成干扰样本,完成多模态大模型的视觉问答自动化标注。由此,解决了相关技术中,由于单模态模型标注结果易出现语义偏差、上下文割裂或知识噪声的问题,多模态大模型由于模型幻觉、数据偏差等因素,导致实际标注质量受到显著影响,降低效率与准确性等问题。
技术关键词
问答对数据
视觉
多模态
标注方法
图片
图像
列表
智能数据处理技术
基础
标注装置
计算机程序产品
处理器
样本
场景
模块
可读存储介质
存储器
偏差
电子设备
系统为您推荐了相关专利信息
风格
多模态
多模型方法
联合概率数据关联
方向盘
多模态数据分析
火灾预测技术
预测森林火灾
数据采集模块
森林火灾监测
辅助训练系统
压力传感阵列
模拟单元
多模态
流量复合传感器
多模态对话
数据
情感分析模型
文本
情感分析方法