安卓智能体超越行为克隆的策略学习方法和系统

正文

推荐专利

申请号：CN202411548421

申请日期：2024-11-01

公开号：CN119443145A

公开日期：2025-02-14

类型：发明专利

摘要

本发明属于人工智能技术领域，涉及一种安卓智能体超越行为克隆的策略学习方法和系统，所述方法包括：1)根据专家演示数据对安卓智能体基座模型进行行为克隆；2)在行为克隆后的安卓智能体基座模型的基础上构造奖励函数，并根据专家演示数据对其进行离线强化学习RWR和AWR训练，以获得最终的安卓智能体。本发明结合行为克隆和离线强化学习的优势设计了一套超越传统行为克隆的策略学习方法，该方法相比于传统行为克隆方法可以学到更优的策略，并且比隐式行为克隆，生成对抗模仿学习等方法更加适用于安卓智能体领域，并且占用资源较少，训练模式简单，相比于离线强化学习方法，该方法不需要训练判别器网络，在奖励稀疏的情况下同样有效。

技术关键词

策略学习方法安卓智能基座离线强化学习方法数据学习设备克隆方法参数大语言模型人工智能技术学习系统处理器可读存储介质程序文本基础算法模块

系统为您推荐了相关专利信息

面向工业互联网安全防护的安全大模型构建方法及应用

工业互联网安全模型构建方法生成机制网络安全态势分析工业自动化系统

基于GA-RL的分层多智能体桥隧群维修决策方法及装置

维修决策方法策略动作建议网络健康度计算机可读取存储介质

一种党参蜜片包装系统及其包装方法

党参输送模块包装系统真空模块切割模块

用于对处理工作负载的着色器的动态完整性验证

图形处理器输入输出虚拟化存储器图形处理单元电路系统

多关节可变形的机器人机械臂

机器人机械臂传动丝杆调节臂扇形齿轮伞齿轮

安卓智能体超越行为克隆的策略学习方法和系统

站点导航

APP 下载