一种大模型训练数据合成方法、系统、设备及存储介质

正文

推荐专利

申请号：CN202510907023

申请日期：2025-07-02

公开号：CN120409710B

公开日期：2025-09-02

类型：发明专利

摘要

本发明提出了一种大模型训练数据合成方法、系统、设备及存储介质，包括：对原始军事语料数据进行预处理，使用预训练语言模型生成语义向量，通过聚类分析将语义向量划分为多个主题簇，提取各主题簇的关键词及代表样本，形成主题本体库；基于主题相似度矩阵选取关联主题对，通过预定义模板生成合成样本；通过提示词指令控制合成样本的语言风格，生成风格化样本；划分风格化样本的难度等级，获得分级样本；对分级样本进行多维度质量评估与筛选，获得筛选样本；将筛选样本用于训练大语言模型，根据大语言模型在各主题任务的性能表现，调整主题权重、更新合成策略和优化样本结构。本发明能为大模型训练提供高质量、多样化的训练数据。

技术关键词

样本语义向量 BERT模型大语言模型预训练语言模型军事数据逻辑连接结构表达式关键词复杂度风格文本模板主题语义代表可读存储介质编码

系统为您推荐了相关专利信息

基于假阴性样本软距离约束的图文跨模态检索方法及系统

样本三元组后验方法语义解码器

一种基于机器视觉的枣类外观检测分级方法及系统

检测分级方法高光谱成像系统联合注意力机制纹理分级决策树

一种基于多目标分形进化网络的金相组织识别方法

织物纹理识别方法进化算法生成对抗网络组织图像数据

一种SF1-BAGAN图像数据类别平衡增强方法与图像分类方法

轻量卷积神经网络图像分类方法注意力重建原始数据残差结构

一种基于随机森林算法的热镀锌镀层厚度预测方法

厚度预测方法随机森林镀层测厚仪气刀

一种大模型训练数据合成方法、系统、设备及存储介质

站点导航

APP 下载