基于长文本的语言模型训练方法、设备、介质及产品

正文

推荐专利

申请号：CN202511160095

申请日期：2025-08-19

公开号：CN121030337A

公开日期：2025-11-28

类型：发明专利

摘要

本申请公开了基于长文本的语言模型训练方法、设备、介质及产品，属于数据处理领域。本申请能够对获取的原始训练样本进行分类处理得到第一训练样本，可以有效筛选出具有高质量长文依赖性的训练数据，提高模型对长文本中依赖关系的学习效率；基于预设策略将第一训练样本与多分布语料库中的数据进行混合，得到第二训练样本，在该过程中将不同长度的长文数据与短文数据按特定比例混合，构建多级长度的训练数据集，可以在保持短文本处理能力的同时提升长文本理解能力；将第二训练样本输入待训练语言模型进行多级训练，逐步提高模型处理长文本的能力，同时减少对大量训练数据和高性能GPU资源的依赖，目标语言模型具备支持长度文本理解的能力。

技术关键词

语言模型训练方法训练语言模型数据计算机程序指令滑动窗口机制文本理解策略计算机程序产品处理器电子设备介质高性能字符语义存储器编码动态

系统为您推荐了相关专利信息

基于RFID的包袋仓储智能分拣及管理系统

RFID标签仓储智能传送带管理系统速度控制模块

仪表可靠性检测方法、系统、设备及介质

检测仪表可靠性检测方法联动设备数值异常状态

数字孪生中各坐标系下的地理信息同步系统及方法

地理信息数据坐标系数字孪生模型误差检测系统误差校正

基于压裂参数自适应调整的水力压裂卸压方法

卸压方法裂缝水力压裂动态仿真系统分布式光纤传感器

一种嵌入式计算机数字孪生体多类模型的联合仿真方法

联合仿真方法嵌入式计算机数字孪生仿真模型资源特征

基于长文本的语言模型训练方法、设备、介质及产品

站点导航

APP 下载