摘要
本申请公开了一种语言模型训练方法、设备、存储介质及计算机程序产品,涉及自然语言处理技术领域,方法包括:第二设备训练小语言模型后,将小语言模型针对于文本数据的第二训练结果发送给第一设备;第一设备确定文本数据归属于对应的第二训练结果满足预设条件的第二设备,并发送第一发送指示信息给第二设备,第二设备发送第一发送指示信息中指示的文本数据的第二概率分布预测结果给第一设备,第一设备基于第二概率分布预测结果优化大语言模型,直到满足预设训练结束条件后,获得训练完成的大语言模型。本申请能在模型训练过程中对第一设备与第二设备之间传递的通信量进行优化。
技术关键词
语言模型训练方法
大语言模型
度量
标签文本
问答模型
样本
计算机程序产品
数据
模型训练设备
设备通信
处理器
自然语言
通信量
可读存储介质
存储器
系统为您推荐了相关专利信息
实体间关系
Neo4j数据库
知识图谱构建装置
大语言模型
结构设计模块
变压器缺陷
知识抽取方法
三元组
大语言模型
微调方法
记忆
异常检测系统
多模态体征数据
异常检测方法
动态更新