基于多模态大模型的视觉问答自动化标注方法及装置

AITNT
正文
推荐专利
基于多模态大模型的视觉问答自动化标注方法及装置
申请号:CN202510910007
申请日期:2025-07-02
公开号:CN120808070A
公开日期:2025-10-17
类型:发明专利
摘要
本申请涉及多模态人工智能与智能数据处理技术领域,特别涉及一种基于多模态大模型的视觉问答自动化标注方法及装置,其中,方法包括:采集用于构建视觉问答的不同场景的基础图像数据;预处理基础图像数据,构建图片内容实例列表,并关联相关的词条;基于相关的词条,对图片内容实例列表进行筛选与修正,生成视觉问答对,构建视觉问答对数据集;判断视觉问答对数据集是否满足预设质量条件,根据视觉问答对数据集生成干扰样本,完成多模态大模型的视觉问答自动化标注。由此,解决了相关技术中,由于单模态模型标注结果易出现语义偏差、上下文割裂或知识噪声的问题,多模态大模型由于模型幻觉、数据偏差等因素,导致实际标注质量受到显著影响,降低效率与准确性等问题。
技术关键词
问答对数据 视觉 多模态 标注方法 图片 图像 列表 智能数据处理技术 基础 标注装置 计算机程序产品 处理器 样本 场景 模块 可读存储介质 存储器 偏差 电子设备
系统为您推荐了相关专利信息
1
基于多模态的驾驶风格检测方法
风格 多模态 多模型方法 联合概率数据关联 方向盘
2
基于多模态数据分析的森林火灾损失预测方法及装置
多模态数据分析 火灾预测技术 预测森林火灾 数据采集模块 森林火灾监测
3
一种用于运动急救的辅助训练系统及方法
辅助训练系统 压力传感阵列 模拟单元 多模态 流量复合传感器
4
电芯模组动态配组方法、装置、设备及存储介质
配组方法 电芯模组 动态 挡位 队列
5
情感分析方法、装置、设备、介质和程序产品
多模态对话 数据 情感分析模型 文本 情感分析方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号