摘要
本发明公开了一种个性化提示语优化方法、装置、电子设备及存储介质,包括,获取大模型任务级提示语的K个组成部分,构建MDP模型,获取MDP模型的初始时刻状态,根据初始时刻状态,输出当前时刻的推荐物品集,对当前时刻的提示语和当前时刻的推荐物品集中被选择的推荐物品进行编码,迭代得到当前时刻的状态,根据当前时刻的状态,迭代得到下一时刻的状态,根据下一时刻的状态,选择下一时刻的动作,计算下一时刻的动作的概率,和下一时刻的状态的值,根据被选择的推荐物品,得到累计奖励、第一损失函数和第二损失函数;本发明会不断地尝试不同的提示语,根据用户反馈和推荐物品来更新策略,从而逐渐提升提示语的质量和推荐效果。
技术关键词
分布式智能
计算机可执行指令
策略
预训练语言模型
电子设备
自然语言
表达式
可读存储介质
编码
处理器
优化装置
输出模块
符号
决策
格式
存储器
序列
定义