一种知识引导型强化学习离散提示词优化方法

正文

推荐专利

申请号：CN202510905316

申请日期：2025-06-28

公开号：CN120832891A

公开日期：2025-10-24

类型：发明专利

摘要

本发明公开了一种面向黑盒大语言模型的知识引导型强化学习离散提示词优化方法，属于自然语言处理与人工智能优化技术领域。所述方法提出了KPE‑RL(Knowledge‑guided Prompt Editing with Reinforcement Learning)算法，利用结构化短语级知识库约束编辑操作，将提示词优化建模为马尔可夫决策过程，通过深度Q网络学习离散编辑策略。该方法设计了融合语义嵌入与任务统计特征的混合状态编码方式，并设计多样性正则奖励，鼓励高效探索，提升模型在有限API调用场景下的优化能力。该发明适用于API黑盒场景下大语言模型的自动化提示优化，具备泛化性、鲁棒性与实际应用价值。

技术关键词

统计特征深度Q网络学习大语言模型人工智能优化编辑融合语义贪婪策略场景标签自然语言风格鲁棒性编码决策数据机制算法

一种知识引导型强化学习离散提示词优化方法

站点导航

APP 下载