基于大语言模型的上下文偏好学习方法、装置及设备

AITNT
正文
推荐专利
基于大语言模型的上下文偏好学习方法、装置及设备
申请号:CN202511097420
申请日期:2025-08-06
公开号:CN120996133A
公开日期:2025-11-21
类型:发明专利
摘要
本发明涉及一种基于大语言模型的上下文偏好学习方法、装置及设备,方法包括:配置任务环境并定义性能指标;通过大语言模型自动生成多组初始奖励函数;并行训练多个强化学习代理并采集行为数据;基于加权评分机制自动识别最优与最劣奖励函数;结合对比差异信息驱动大语言模型生成改进函数并迭代优化。本方案能够突破人工设计瓶颈,实现奖励函数的动态权重调节与跨场景泛化;在客服、工业控制等场景中显著提升决策效率与安全性;通过无监督偏好评估降低人工成本,支持策略模型持续自适应优化。
技术关键词
强化学习代理 大语言模型 学习方法 评分机制 指标 情感分析模型 计算机设备 学习装置 人类 策略 处理器 无监督 定义 决策 存储器 控制模块 场景 客服 动态
系统为您推荐了相关专利信息
1
屋面保温层湿度与热导率实时监测方法
屋面保温层 实时监测方法 历史温度数据 环境传感器 出屋面
2
一种基于自监督对比学习和语义增强的草药推荐方法
草药 推荐方法 节点 增强子 语义
3
社会资本指标的确定方法、计算机设备及存储介质
实体关系抽取 概念网络 评价指标算法 构建关系网络 社会
4
变电站部署方法、装置、电子设备和计算机可读介质
布局 三维模型信息 智能变电站 自动扫描装置 电力设备
5
一种集客业务指标自动化接入应用方法
指标 配置管理数据库 监控平台 业务系统 工单管理
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号