基于多模态大模型的视觉问答自动化标注方法及装置

正文

推荐专利

申请号：CN202510910007

申请日期：2025-07-02

公开号：CN120808070A

公开日期：2025-10-17

类型：发明专利

摘要

本申请涉及多模态人工智能与智能数据处理技术领域，特别涉及一种基于多模态大模型的视觉问答自动化标注方法及装置，其中，方法包括：采集用于构建视觉问答的不同场景的基础图像数据；预处理基础图像数据，构建图片内容实例列表，并关联相关的词条；基于相关的词条，对图片内容实例列表进行筛选与修正，生成视觉问答对，构建视觉问答对数据集；判断视觉问答对数据集是否满足预设质量条件，根据视觉问答对数据集生成干扰样本，完成多模态大模型的视觉问答自动化标注。由此，解决了相关技术中，由于单模态模型标注结果易出现语义偏差、上下文割裂或知识噪声的问题，多模态大模型由于模型幻觉、数据偏差等因素，导致实际标注质量受到显著影响，降低效率与准确性等问题。

技术关键词

问答对数据视觉多模态标注方法图片图像列表智能数据处理技术基础标注装置计算机程序产品处理器样本场景模块可读存储介质存储器偏差电子设备

系统为您推荐了相关专利信息

基于多模态的驾驶风格检测方法

风格多模态多模型方法联合概率数据关联方向盘

基于多模态数据分析的森林火灾损失预测方法及装置

多模态数据分析火灾预测技术预测森林火灾数据采集模块森林火灾监测

一种用于运动急救的辅助训练系统及方法

辅助训练系统压力传感阵列模拟单元多模态流量复合传感器

电芯模组动态配组方法、装置、设备及存储介质

配组方法电芯模组动态挡位队列

情感分析方法、装置、设备、介质和程序产品

多模态对话数据情感分析模型文本情感分析方法

基于多模态大模型的视觉问答自动化标注方法及装置

站点导航

APP 下载