摘要
本发明涉及一种基于模态桥接的气象数据集自动构建方法和系统,面向气象领域多模态大模型训练需求,该方法和系统通过图像与文本信息的深度融合,实现从原始气象图像到结构化专家式推理文本的自动转化,涵盖数据预处理、图文语义建模、因果推理生成、一致性筛选及并行处理五个阶段,利用多模态模型提取关键气象要素,通过具备气象知识的语言模型构建链式思维过程,实现链式推理标注,引入跨模态语义对齐与多轮推理机制,提升标注的一致性和准确性,并结合规则与模型筛选高质量样本,具备自动化、高一致性和良好扩展性,显著降低人工标注成本,适用于大规模气象推理多模态数据集的构建。
技术关键词
气象
预训练语言模型
自动构建方法
多模态
图像
语义
自然语言文本
判别模块
构建系统
逻辑
注意力机制
数据
阶段
样本
多线程
标签结构
推理机制
筛选结构