摘要
本申请涉及一种基于VLM‑LLM协同校验与指令驱动的多模态数据构建方法,通过VLM与LLM的协同校验设计机制,实现了全流程自动化,减少人工标注环节,使复杂场景数据构建效率提升;进一步地,通过LLM的多次交叉复核机制,建立自纠错能力,显著降低错误标注率,大幅减少后期修正成本;通过自动调度LLM中专家身份,实现了优秀的域迁移能力,有效解决人工专家依赖问题,能够自动适应新图像领域,无须人工介入干预,提高了多模态数据构建的灵活性和适应性。与传统人工标注方案和半自动化标注方案相比,本发明克服了语义理解不足、模态割裂、动态适配性差等技术劣势,以及成本高昂、质量波动大、迭代效率低等人力劣势,为高效生产高质量多模态数据集提供了解决方案。
技术关键词
图文
数据构建方法
组合模块
逻辑
多模态
图像
指令
风格
语言分析
语义
机制
处理器
构建系统
计算机设备
动态
可读存储介质
存储器
纠错
系统为您推荐了相关专利信息
语音识别方法
多模态特征
合成视频内容
图像特征提取
指数