摘要
本发明提出一种提升大语言模型长程深度搜索推理能力的方法和装置。本发明实施例的提升大语言模型长程深度搜索推理能力的方法,显著提升大语言模型在跨领域复杂问题中的长程检索推理能力,通过知识图谱驱动的高难度数据自动生成与三层难度筛选机制,结合监督微调与GRPO强化学习的两阶段训练策略,有效增强模型的多跳推理深度与外部工具调用的协同性。
技术关键词
大语言模型
两阶段
实体
强化学习算法
正确率
策略
答案
轨迹
语义
知识图谱驱动
节点
教师
样本
动态
模块
复杂度
数据
学生
系统为您推荐了相关专利信息
语义分割模型
AR实景导航
实景导航方法
交通场景图像
卷积模块
车辆
轨迹规划算法
深度强化学习模型
路径跟踪控制
多项式
大语言模型
意图
语音识别模块
交互方法
路线规划数据
生理特征数据
深度学习分类模型
模型建立方法
正确率
深度学习模型