一种基于VLM-LLM协同校验与指令驱动的多模态数据构建方法

正文

推荐专利

申请号：CN202510976674

申请日期：2025-07-16

公开号：CN120494114B

公开日期：2025-11-14

类型：发明专利

摘要

本申请涉及一种基于VLM‑LLM协同校验与指令驱动的多模态数据构建方法，通过VLM与LLM的协同校验设计机制，实现了全流程自动化，减少人工标注环节，使复杂场景数据构建效率提升；进一步地，通过LLM的多次交叉复核机制，建立自纠错能力，显著降低错误标注率，大幅减少后期修正成本；通过自动调度LLM中专家身份，实现了优秀的域迁移能力，有效解决人工专家依赖问题，能够自动适应新图像领域，无须人工介入干预，提高了多模态数据构建的灵活性和适应性。与传统人工标注方案和半自动化标注方案相比，本发明克服了语义理解不足、模态割裂、动态适配性差等技术劣势，以及成本高昂、质量波动大、迭代效率低等人力劣势，为高效生产高质量多模态数据集提供了解决方案。

技术关键词

图文数据构建方法组合模块逻辑多模态图像指令风格语言分析语义机制处理器构建系统计算机设备动态可读存储介质存储器纠错

系统为您推荐了相关专利信息

一种用于合成视频的语音识别方法、系统及存储介质

语音识别方法多模态特征合成视频内容图像特征提取指数

一种基于动态视角选择的自动驾驶感知方法、装置及电子设备、存储介质

融合特征视觉策略网络视角

用于芋头收获设备的机器视觉的果实分级方法及装置

收获设备像素点指数果实分级装置数据

一种组网X波段雷达自适应协同校准方法和系统

X波段雷达校准策略逻辑序列组网

基于MNS的消息快速集成方法、装置、设备及存储介质

消息系统客户端监听器集成方法参数标识

一种基于VLM-LLM协同校验与指令驱动的多模态数据构建方法

站点导航

APP 下载