摘要
本发明涉及一种基于大语言模型的上下文偏好学习方法、装置及设备,方法包括:配置任务环境并定义性能指标;通过大语言模型自动生成多组初始奖励函数;并行训练多个强化学习代理并采集行为数据;基于加权评分机制自动识别最优与最劣奖励函数;结合对比差异信息驱动大语言模型生成改进函数并迭代优化。本方案能够突破人工设计瓶颈,实现奖励函数的动态权重调节与跨场景泛化;在客服、工业控制等场景中显著提升决策效率与安全性;通过无监督偏好评估降低人工成本,支持策略模型持续自适应优化。
技术关键词
强化学习代理
大语言模型
学习方法
评分机制
指标
情感分析模型
计算机设备
学习装置
人类
策略
处理器
无监督
定义
决策
存储器
控制模块
场景
客服
动态
系统为您推荐了相关专利信息
屋面保温层
实时监测方法
历史温度数据
环境传感器
出屋面
实体关系抽取
概念网络
评价指标算法
构建关系网络
社会
布局
三维模型信息
智能变电站
自动扫描装置
电力设备
指标
配置管理数据库
监控平台
业务系统
工单管理