摘要
本发明公开了一种面向黑盒大语言模型的知识引导型强化学习离散提示词优化方法,属于自然语言处理与人工智能优化技术领域。所述方法提出了KPE‑RL(Knowledge‑guided Prompt Editing with Reinforcement Learning)算法,利用结构化短语级知识库约束编辑操作,将提示词优化建模为马尔可夫决策过程,通过深度Q网络学习离散编辑策略。该方法设计了融合语义嵌入与任务统计特征的混合状态编码方式,并设计多样性正则奖励,鼓励高效探索,提升模型在有限API调用场景下的优化能力。该发明适用于API黑盒场景下大语言模型的自动化提示优化,具备泛化性、鲁棒性与实际应用价值。
技术关键词
统计特征
深度Q网络学习
大语言模型
人工智能优化
编辑
融合语义
贪婪策略
场景
标签
自然语言
风格
鲁棒性
编码
决策
数据
机制
算法