一种基于大模型的双层次优化AI训练数据的方法

AITNT
正文
推荐专利
一种基于大模型的双层次优化AI训练数据的方法
申请号:CN202510593422
申请日期:2025-05-09
公开号:CN120561579B
公开日期:2026-01-02
类型:发明专利
摘要
本发明提供一种基于大模型的双层次优化AI训练数据的方法,涉及人工智能领域,所述方法包括:利用大语言模型的随机性生成能力,对历史数据中的每个问题和指令,通过高随机性超参数配置生成多个同源答案;基于多个同源答案,通过预训练的教师模型在低随机性超参数配置下进行评分,生成偏好数据对,并筛选出评分高于阈值的答案作为高质量监督微调数据;将步骤S1生成的同源答案与步骤S2中对应的评分结果对应,构建用于直接偏好优化的初级偏好数据,并结合筛选后的高质量SFT数据形成第一层次优化数据。本发明通过双层次优化架构和动态调整机制,在保证数据质量的前提下提升AI训练效率,为大规模模型训练提供了可靠的数据支撑。
技术关键词
数据 超参数 大语言模型 训练集 轨迹 多轮对话场景 教师 生成指令 逻辑 动态调整机制 可读存储介质 生成答案 模板 处理器 语义 程序
系统为您推荐了相关专利信息
1
煤矿水害风险预警方法及相关设备
序列 数据 煤矿水害 回归方法 风险预警方法
2
一种卫星星间链路测距偏差标定方法及系统
偏差标定方法 卫星星间链路 时延 建模误差 非暂态计算机可读存储介质
3
管道缺陷三维轮廓反演方法、装置、电子设备及存储介质
磁感应强度 矩阵 阶段 连续性 进化策略
4
一种风机智能电流监测与预警系统及方法
传输模块 数据处理模块 处理单元 预警系统 电流传感器
5
基于随钻参数的隧道围岩地应力智能解析方法及系统
智能解析方法 Stacking集成学习 隧道围岩 动态权重分配 集成学习模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号