一种基于模型上下文协议的实时强化学习大语言模型交互方法及系统

正文

推荐专利

申请号：CN202511084459

申请日期：2025-08-04

公开号：CN120688645A

公开日期：2025-09-23

类型：发明专利

摘要

一种基于模型上下文协议的实时强化学习大语言模型交互方法及系统，包括：对模型和环境进行初始化，加载初始策略LLM的推理层及初始化学习层，配置并启动隔离的运行环境及MCP服务端，同时启动多个并行的Actor实例；执行异步并行交互与数据收集，多个Actor实例并行地通过MCP服务端来与策略大语言模型的推理层进行交互，并对交互数据进行收集；根据收集到的交互数据及奖励机制来计算得到用于强化学习的奖励信号；根据奖励信号和交互数据对策略大语言模型进行调整与优化；进行权重热更新与参数下发，将学习层优化后的模型权重通过热更新机制部署到推理层，供所有Actor实例使用。从而为LLM与复杂应用之间提供统一、高效的接口，支持实时交互、强化学习及适应性调整。

技术关键词

大语言模型交互方法协议服务端意图客户端实例管理模块数据采集模块指令多环境接口模块参数校准机制信号性能监控策略更新

系统为您推荐了相关专利信息

内容监控方法、装置及电子设备

内容监控方法客户端语义特征服务端预测用户意图

一种知识库管理系统及增强方法

元素知识库管理系统场景语音输入接口命名实体识别

车辆行驶环境的检测方法、装置、电子设备及存储介质

车辆行驶环境多维图像数据障碍物类别大语言模型点云

一种骨质疏松治疗仪的智能语音交互方法

智能语音交互方法骨质疏松治疗仪多轮对话场景意图识别模型卷积循环神经网络

电商平台的消费决策意图分析方法及装置

电商搜索词因子意图分析方法决策

一种基于模型上下文协议的实时强化学习大语言模型交互方法及系统

站点导航

APP 下载