摘要
提供了用于强化学习的方法、装置、设备和介质。在一种方法中,利用机器学习模型,确定与针对提示词的至少一部分应答相关联的标记序列,标记序列包括由机器学习模型按照时间顺序所输出的多个标记。基于分别与多个标记相关联的多个熵指标,将标记序列划分为多个标记子序列。基于提示词和多个标记子序列,利用机器学习模型确定针对提示词的应答的预测。基于针对提示词的应答和应答的预测,确定与提示词相关联的奖励。利用上述方法,可以以更为准确的方式确定强化学习中的奖励,由此提高机器学习模型的性能。
技术关键词
机器学习模型
标记
序列
指标
处理器
计算机
指令
电子设备
可读存储介质
模块
存储器
参数