摘要
本发明属于信息技术领域,涉及一种基于序列长度的大模型分布式训练自适应方法和系统。该方法包括:测试不同长度序列数据的最佳训练策略;在训练数据预处理中对短序列数据进行拼接,并将拼接后的数据按照长度分成不同的微批次;在训练过程中根据微批次中训练数据的长度动态调整训练策略。本发明通过三个阶段定制化动态训练策略,以适应长尾分布数据集的特点,能够高效地处理长序列的拼接,大幅减少了填充符号的使用,在保持训练范式不变的前提下显著提升了训练效率。
技术关键词
序列
分布式训练
并行策略
数据
存储计算机程序
动态
可读存储介质
测试模块
计算机设备
算法
存储器
处理器
符号
样本
阶段
指令
系统为您推荐了相关专利信息
卫星遥感影像
卫星遥感图像
数据同步系统
接收系统
采集系统
判识方法
正则化参数
矿井突水水源识别
策略
煤矿安全技术