摘要
本申请公开了基于长文本的语言模型训练方法、设备、介质及产品,属于数据处理领域。本申请能够对获取的原始训练样本进行分类处理得到第一训练样本,可以有效筛选出具有高质量长文依赖性的训练数据,提高模型对长文本中依赖关系的学习效率;基于预设策略将第一训练样本与多分布语料库中的数据进行混合,得到第二训练样本,在该过程中将不同长度的长文数据与短文数据按特定比例混合,构建多级长度的训练数据集,可以在保持短文本处理能力的同时提升长文本理解能力;将第二训练样本输入待训练语言模型进行多级训练,逐步提高模型处理长文本的能力,同时减少对大量训练数据和高性能GPU资源的依赖,目标语言模型具备支持长度文本理解的能力。
技术关键词
语言模型训练方法
训练语言模型
数据
计算机程序指令
滑动窗口机制
文本理解
策略
计算机程序产品
处理器
电子设备
介质
高性能
字符
语义
存储器
编码
动态
系统为您推荐了相关专利信息
RFID标签
仓储智能
传送带
管理系统
速度控制模块
检测仪表
可靠性检测方法
联动设备
数值
异常状态
地理信息数据
坐标系
数字孪生模型
误差检测系统
误差校正
卸压方法
裂缝
水力压裂
动态仿真系统
分布式光纤传感器
联合仿真方法
嵌入式计算机
数字孪生
仿真模型
资源特征