摘要
本发明提供了强化学习监督的个性化大语言模型Prompt生成方法,该方法包括:将样本数据分别输入到初始Prompt生成模型和预先训练完成的中间Prompt生成模型中得到第一生成Prompt和第二生成Prompt;将第一生成Prompt和对应的第一生成回复输入到奖励模型中得到第一生成Prompt对应的奖励值;基于样本数据、Prompt标签、第一生成Prompt、第二生成Prompt和第一生成Prompt对应的奖励值更新初始Prompt生成模型的参数,以生成大语言模型Prompt。本申请基于第一任务描述样本和对应的第一用户信息样本训练Prompt生成模型,为用户提供个性化回复。
技术关键词
大语言模型
样本
生成方法
标签
生成用户信息
机器可读指令
数据
输入模块
处理器
可读存储介质
参数
电子设备
生成装置
计算机
数值
系统为您推荐了相关专利信息
畜牧兽医
检测设备
样本固定装置
智能显示终端
微流控芯片
分析报告生成方法
非易失性存储介质
文本
斯皮尔曼相关系数
神经网络模型