一种大模型训练数据合成方法、系统、设备及存储介质

AITNT
正文
推荐专利
一种大模型训练数据合成方法、系统、设备及存储介质
申请号:CN202510907023
申请日期:2025-07-02
公开号:CN120409710B
公开日期:2025-09-02
类型:发明专利
摘要
本发明提出了一种大模型训练数据合成方法、系统、设备及存储介质,包括:对原始军事语料数据进行预处理,使用预训练语言模型生成语义向量,通过聚类分析将语义向量划分为多个主题簇,提取各主题簇的关键词及代表样本,形成主题本体库;基于主题相似度矩阵选取关联主题对,通过预定义模板生成合成样本;通过提示词指令控制合成样本的语言风格,生成风格化样本;划分风格化样本的难度等级,获得分级样本;对分级样本进行多维度质量评估与筛选,获得筛选样本;将筛选样本用于训练大语言模型,根据大语言模型在各主题任务的性能表现,调整主题权重、更新合成策略和优化样本结构。本发明能为大模型训练提供高质量、多样化的训练数据。
技术关键词
样本 语义向量 BERT模型 大语言模型 预训练语言模型 军事 数据 逻辑连接结构 表达式 关键词 复杂度 风格 文本 模板 主题语义 代表 可读存储介质 编码
系统为您推荐了相关专利信息
1
基于假阴性样本软距离约束的图文跨模态检索方法及系统
样本 三元组 后验方法 语义 解码器
2
一种基于机器视觉的枣类外观检测分级方法及系统
检测分级方法 高光谱成像系统 联合注意力机制 纹理 分级决策树
3
一种基于多目标分形进化网络的金相组织识别方法
织物纹理 识别方法 进化算法 生成对抗网络 组织图像数据
4
一种SF1-BAGAN图像数据类别平衡增强方法与图像分类方法
轻量卷积神经网络 图像分类方法 注意力 重建原始数据 残差结构
5
一种基于随机森林算法的热镀锌镀层厚度预测方法
厚度预测方法 随机森林 镀层 测厚仪 气刀
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号