一种知识引导型强化学习离散提示词优化方法

AITNT
正文
推荐专利
一种知识引导型强化学习离散提示词优化方法
申请号:CN202510905316
申请日期:2025-06-28
公开号:CN120832891A
公开日期:2025-10-24
类型:发明专利
摘要
本发明公开了一种面向黑盒大语言模型的知识引导型强化学习离散提示词优化方法,属于自然语言处理与人工智能优化技术领域。所述方法提出了KPE‑RL(Knowledge‑guided Prompt Editing with Reinforcement Learning)算法,利用结构化短语级知识库约束编辑操作,将提示词优化建模为马尔可夫决策过程,通过深度Q网络学习离散编辑策略。该方法设计了融合语义嵌入与任务统计特征的混合状态编码方式,并设计多样性正则奖励,鼓励高效探索,提升模型在有限API调用场景下的优化能力。该发明适用于API黑盒场景下大语言模型的自动化提示优化,具备泛化性、鲁棒性与实际应用价值。
技术关键词
统计特征 深度Q网络学习 大语言模型 人工智能优化 编辑 融合语义 贪婪策略 场景 标签 自然语言 风格 鲁棒性 编码 决策 数据 机制 算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号