一种基于大模型的双层次优化AI训练数据的方法

正文

推荐专利

申请号：CN202510593422

申请日期：2025-05-09

公开号：CN120561579B

公开日期：2026-01-02

类型：发明专利

摘要

本发明提供一种基于大模型的双层次优化AI训练数据的方法，涉及人工智能领域，所述方法包括：利用大语言模型的随机性生成能力，对历史数据中的每个问题和指令，通过高随机性超参数配置生成多个同源答案；基于多个同源答案，通过预训练的教师模型在低随机性超参数配置下进行评分，生成偏好数据对，并筛选出评分高于阈值的答案作为高质量监督微调数据；将步骤S1生成的同源答案与步骤S2中对应的评分结果对应，构建用于直接偏好优化的初级偏好数据，并结合筛选后的高质量SFT数据形成第一层次优化数据。本发明通过双层次优化架构和动态调整机制，在保证数据质量的前提下提升AI训练效率，为大规模模型训练提供了可靠的数据支撑。

技术关键词

数据超参数大语言模型训练集轨迹多轮对话场景教师生成指令逻辑动态调整机制可读存储介质生成答案模板处理器语义程序

系统为您推荐了相关专利信息

煤矿水害风险预警方法及相关设备

序列数据煤矿水害回归方法风险预警方法

一种卫星星间链路测距偏差标定方法及系统

偏差标定方法卫星星间链路时延建模误差非暂态计算机可读存储介质

管道缺陷三维轮廓反演方法、装置、电子设备及存储介质

磁感应强度矩阵阶段连续性进化策略

一种风机智能电流监测与预警系统及方法

传输模块数据处理模块处理单元预警系统电流传感器

基于随钻参数的隧道围岩地应力智能解析方法及系统

智能解析方法 Stacking集成学习隧道围岩动态权重分配集成学习模型

一种基于大模型的双层次优化AI训练数据的方法

站点导航

APP 下载