基于约束感知自学习推理的大语言模型指令优化方法

正文

推荐专利

申请号：CN202510853690

申请日期：2025-06-24

公开号：CN120654834A

公开日期：2025-09-16

类型：发明专利

摘要

本发明提供了一种基于约束感知自学习推理的大语言模型指令优化方法方法，可以应用于自然语言处理和人工智能技术领域。该方法包括：在冷启动训练阶段，利用由预训练语言模型生成的思维链示例辅助目标大语言模型识别训练指令集中的约束，其中，训练指令集中的约束包括硬性约束和软性约束；利用思维链示例和训练标注数据对目标大语言模型进行监督微调以使目标大语言模型的思维链生成过程满足硬性约束和软性约束；在自我学习训练阶段，利用硬性约束和软性约束构建约束满意度评估机制，并基于约束满意度评估机制，通过强化学习算法对目标大语言模型的思维链生成策略进行优化。

技术关键词

大语言模型强化学习算法指令优化方法自动问答系统摘要样本文本生成模板机制预训练语言模型阶段策略数据人工智能技术风格自然语言时效性标签

系统为您推荐了相关专利信息

一种基于通用大语言模型与知识图谱的个性化问答方法

大语言模型邻居图谱问答方法学生

智能机器人及其控制系统

机器人视觉控制智能机器人指令数据大语言模型

多源异构输电监测数据的边缘融合诊断系统及方法

多源异构数据智能诊断模型融合诊断方法节点诊断系统

面向大语言模型服务的数据差分隐私保护方法及装置

差分隐私保护方法大语言模型实体哈希算法数据隐私保护方法

智能推荐方法、装置、设备及存储介质

标签交互内容大语言模型资料画像

基于约束感知自学习推理的大语言模型指令优化方法

站点导航

APP 下载