摘要
本发明涉及模型数据分析处理技术领域,具体涉及一种基于最小训练step覆盖频次的模型训练数据构造方法与系统,所述方法包括以下步骤:训练配置输入步骤:接收训练任务的基础参数;样本数量反推步骤:根据输入的基础参数,调用预设公式反向计算每类样本应具备的最小样本数量和最小样本占比;样本配置输出步骤:将反向计算结果写入样本构造配置文件,指导后续训练样本数据的选取与生成;监控及验证步骤:监控各类样本的实际step的覆盖频次;再对比覆盖频次与设定的目标频次,判断该类样本是否满足训练目标频次;若不满足,输出提示信息。本发明解决了现有微调任务中样本配置不科学、训练效果不可控、小类样本频次不足等技术问题。
技术关键词
数据构造方法
训练样本数据
预训练语言模型
构造系统
图像增强算法
GAN模型
噪声样本
参数
风格
分类方式
基础
生成方式
语义
多模态
策略
输入模块
字段
系统为您推荐了相关专利信息
双向长短期记忆网络
训练样本数据
训练检测模型
注意力机制
指标
文本特征向量
填补方法
数据
时序
深度学习模型训练
识别马铃薯
识别模型训练方法
分选方法
传输机构
分选机构