摘要
本发明提出了一种大模型训练数据合成方法、系统、设备及存储介质,包括:对原始军事语料数据进行预处理,使用预训练语言模型生成语义向量,通过聚类分析将语义向量划分为多个主题簇,提取各主题簇的关键词及代表样本,形成主题本体库;基于主题相似度矩阵选取关联主题对,通过预定义模板生成合成样本;通过提示词指令控制合成样本的语言风格,生成风格化样本;划分风格化样本的难度等级,获得分级样本;对分级样本进行多维度质量评估与筛选,获得筛选样本;将筛选样本用于训练大语言模型,根据大语言模型在各主题任务的性能表现,调整主题权重、更新合成策略和优化样本结构。本发明能为大模型训练提供高质量、多样化的训练数据。
技术关键词
样本
语义向量
BERT模型
大语言模型
预训练语言模型
军事
数据
逻辑连接结构
表达式
关键词
复杂度
风格
文本
模板
主题语义
代表
可读存储介质
编码
系统为您推荐了相关专利信息
检测分级方法
高光谱成像系统
联合注意力机制
纹理
分级决策树
织物纹理
识别方法
进化算法
生成对抗网络
组织图像数据
轻量卷积神经网络
图像分类方法
注意力
重建原始数据
残差结构