模型训练方法、文本处理方法及相关设备

AITNT
正文
推荐专利
模型训练方法、文本处理方法及相关设备
申请号:CN202510279888
申请日期:2025-03-07
公开号:CN120687816A
公开日期:2025-09-23
类型:发明专利
摘要
本申请涉及人工智能,提供一种模型训练方法、文本处理方法及相关设备。模型训练方法包括:调用大语言模型处理训练样本,确定训练样本中的词元被预分配给大语言模型的多个专家网络进行处理的概率;基于词元对应的多个概率,确定多个专家网络的负载;根据多个专家网络的负载及负载阈值,从多个专家网络中确定第一专家网络及第二专家网络;根据词元分配给第二专家网络的概率,确定处理词元的第三专家网络;基于第一专家网络对词元的输出结果及第三专家网络对词元的输出结果,训练大语言模型。上述方法能够在确保大语言模型的训练效果时,解决大语言模型的训练过程中各个专家网络超载的问题。
技术关键词
模型训练方法 大语言模型 网络 文本处理方法 计算机程序产品 处理器 编码向量 存储器 电子设备 参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号