摘要
本申请实施例提供了一种大语言模型的训练方法、装置、电子设备及存储介质,可涉及人工智能领域,该方法包括:获取提示词和多个样本问题,针对每个样本问题,将该样本问题和提示词输入到大语言模型中,通过执行多次答复生成操作得到该样本问题的多个答复,基于该样本问题的多个答复的语义相似性,聚类得到多个答复簇,根据每一答复簇中答复的数量,确定该答复簇中各答复对应的奖励,根据该样本问题的各答复对应的奖励,确定该样本问题对应的第一奖励,根据各样本问题对应的第一奖励,对大语言模型的模型参数进行调整,通过迭代训练得到训练后的大语言模型。该方法在无监督环境下实现了模型推理能力的有效提升,显著增强了模型的灵活性和实用性。
技术关键词
样本
大语言模型
分词
计算机程序产品
参数
电子设备
信息熵
基准
聚类
处理器
语义
训练装置
关系
可读存储介质
存储器
模块
系统为您推荐了相关专利信息
自动化检测系统
机械臂单元
自动化控制模块
信号采集模块
干扰信号发生器
焊接机器人
焊接工艺参数
自动调用方法
三维模型
自动调用系统