知识密集型视觉问答自动化数据生成方法及装置

正文

推荐专利

申请号：CN202511043738

申请日期：2025-07-28

公开号：CN120930746A

公开日期：2025-11-11

类型：发明专利

摘要

本申请涉及一种知识密集型视觉问答自动化数据生成方法及装置，其中，方法包括：根据静态图像、视频流和多媒体内容构建包含目标领域专业知识的原始视觉数据集；提取代表性帧序列，将音频信息转换为文本信息，并提取静态图像中的文字信息，以构建结构化视觉实例数据库；根据满足预设专业深度条件的提示文本建立包含领域知识、评估标准和生成规范的三级提示体系；根据主智能体与领域专家智能体的动态协作，生成对应的视觉问答对数据集；根据质量评估结果生成多智能体的质量评估体系；根据负例样本设计难度分级机制。本申请显著提升了视觉问答数据的专业性、准确性和多样性，为多模态大模型的训练与评估提供了可靠的数据支持。

技术关键词

数据生成方法动态协作问答对数据视觉数据集关键帧文本高维特征向量视频流语义多媒体样本多智能体系统数据生成装置图像专业特征音频生成框架机制

系统为您推荐了相关专利信息

基于深度学习的视频内容分析方法、设备、介质及产品

视频内容分析方法关键帧多任务学习网络图像字幕

一种高逼真云端渲染集群调度方法及系统

集群调度方法动态码率云端集群调度系统优化调度策略

一种TARD电动车载人违规智能检测方法及装置

智能检测方法阶段卷积模块交通监控关键帧

用于双曲面支柱的钢筋放样数据生成方法、系统及设备

三维模型数据生成方法支柱钢筋路径优化算法

基于面部视频非接触式测量的客舱舒适度识别系统及方法

轻量级人脸检测时空注意力机制序列遮挡物品模块化技术

知识密集型视觉问答自动化数据生成方法及装置

站点导航

APP 下载