摘要
本申请涉及一种知识密集型视觉问答自动化数据生成方法及装置,其中,方法包括:根据静态图像、视频流和多媒体内容构建包含目标领域专业知识的原始视觉数据集;提取代表性帧序列,将音频信息转换为文本信息,并提取静态图像中的文字信息,以构建结构化视觉实例数据库;根据满足预设专业深度条件的提示文本建立包含领域知识、评估标准和生成规范的三级提示体系;根据主智能体与领域专家智能体的动态协作,生成对应的视觉问答对数据集;根据质量评估结果生成多智能体的质量评估体系;根据负例样本设计难度分级机制。本申请显著提升了视觉问答数据的专业性、准确性和多样性,为多模态大模型的训练与评估提供了可靠的数据支持。
技术关键词
数据生成方法
动态协作
问答对数据
视觉数据集
关键帧
文本
高维特征向量
视频流
语义
多媒体
样本
多智能体系统
数据生成装置
图像
专业特征
音频
生成框架
机制
系统为您推荐了相关专利信息
视频内容分析方法
关键帧
多任务学习网络
图像
字幕
集群调度方法
动态码率
云端
集群调度系统
优化调度策略
轻量级人脸检测
时空注意力机制
序列
遮挡物品
模块化技术