基于大语言模型的上下文偏好学习方法、装置及设备

正文

推荐专利

申请号：CN202511097420

申请日期：2025-08-06

公开号：CN120996133A

公开日期：2025-11-21

类型：发明专利

摘要

本发明涉及一种基于大语言模型的上下文偏好学习方法、装置及设备，方法包括：配置任务环境并定义性能指标；通过大语言模型自动生成多组初始奖励函数；并行训练多个强化学习代理并采集行为数据；基于加权评分机制自动识别最优与最劣奖励函数；结合对比差异信息驱动大语言模型生成改进函数并迭代优化。本方案能够突破人工设计瓶颈，实现奖励函数的动态权重调节与跨场景泛化；在客服、工业控制等场景中显著提升决策效率与安全性；通过无监督偏好评估降低人工成本，支持策略模型持续自适应优化。

技术关键词

强化学习代理大语言模型学习方法评分机制指标情感分析模型计算机设备学习装置人类策略处理器无监督定义决策存储器控制模块场景客服动态

系统为您推荐了相关专利信息

屋面保温层湿度与热导率实时监测方法

屋面保温层实时监测方法历史温度数据环境传感器出屋面

一种基于自监督对比学习和语义增强的草药推荐方法

草药推荐方法节点增强子语义

社会资本指标的确定方法、计算机设备及存储介质

实体关系抽取概念网络评价指标算法构建关系网络社会

变电站部署方法、装置、电子设备和计算机可读介质

布局三维模型信息智能变电站自动扫描装置电力设备

一种集客业务指标自动化接入应用方法

指标配置管理数据库监控平台业务系统工单管理

基于大语言模型的上下文偏好学习方法、装置及设备

站点导航

APP 下载