摘要
本发明属于大语言模型技术领域,公开了一种基于强化学习的动态提示词示例召回方法及系统。所述方法包括:同时构建一提示词示例选择器,以及一提示词质量评估器;引入强化学习算法以所述提示词质量评价器作为评价者对所述提示词示例选择器进行迭代训练,直至达到预期的迭代次数以得到一最优提示词示例选择器;获取生成任务以基于所述最优提示词示例选择器自示例库内进行提示词示例动态选取;其中,所述示例库内任一提示词示例包括历史上下文,以及预期输出两部分;自示例库内依次获取若干提示词示例直至所述最优提示词示例选择器输出的概率小于预设的概率阈值。本发明通过提高提示词示例选取的准确性保证了模型输出的合理性。
技术关键词
召回方法
强化学习算法
动态
大语言模型
评价器
表达式
模板
模块
客户端
处理器
可读存储介质
存储器
计算机
数据
电子设备
系统为您推荐了相关专利信息
心理健康
筛查系统
智能互动模块
青少年
多模态数据采集
生物发酵反应釜
建模方法
知识图谱驱动
数字孪生驱动
Kubernetes集群