一种基于强化学习的动态提示词示例召回方法及系统

正文

推荐专利

申请号：CN202411441129

申请日期：2024-10-16

公开号：CN118966209B

公开日期：2025-02-11

类型：发明专利

摘要

本发明属于大语言模型技术领域，公开了一种基于强化学习的动态提示词示例召回方法及系统。所述方法包括：同时构建一提示词示例选择器，以及一提示词质量评估器；引入强化学习算法以所述提示词质量评价器作为评价者对所述提示词示例选择器进行迭代训练，直至达到预期的迭代次数以得到一最优提示词示例选择器；获取生成任务以基于所述最优提示词示例选择器自示例库内进行提示词示例动态选取；其中，所述示例库内任一提示词示例包括历史上下文，以及预期输出两部分；自示例库内依次获取若干提示词示例直至所述最优提示词示例选择器输出的概率小于预设的概率阈值。本发明通过提高提示词示例选取的准确性保证了模型输出的合理性。

技术关键词

召回方法强化学习算法动态大语言模型评价器表达式模板模块客户端处理器可读存储介质存储器计算机数据电子设备

系统为您推荐了相关专利信息

一种适用于多模态康复医学信息的实时交互方法及系统

交互网络交互方法指针多模态上采样

一种青少年心理健康筛查系统和方法

心理健康筛查系统智能互动模块青少年多模态数据采集

一种基于数字孪生的生物发酵反应釜过程控制建模方法

生物发酵反应釜建模方法知识图谱驱动数字孪生驱动 Kubernetes集群

一种面向网约车聚合平台的动态最优匹配方法

网约车近似动态规划算法车辆平台决策利润

一种面向大模型问答系统的文件解析与知识召回方法、装置、设备及存储介质

召回方法问答系统生成关键词文本归一化方法

一种基于强化学习的动态提示词示例召回方法及系统

站点导航

APP 下载