摘要
本发明属于人工智能技术领域,涉及一种安卓智能体超越行为克隆的策略学习方法和系统,所述方法包括:1)根据专家演示数据对安卓智能体基座模型进行行为克隆;2)在行为克隆后的安卓智能体基座模型的基础上构造奖励函数,并根据专家演示数据对其进行离线强化学习RWR和AWR训练,以获得最终的安卓智能体。本发明结合行为克隆和离线强化学习的优势设计了一套超越传统行为克隆的策略学习方法,该方法相比于传统行为克隆方法可以学到更优的策略,并且比隐式行为克隆,生成对抗模仿学习等方法更加适用于安卓智能体领域,并且占用资源较少,训练模式简单,相比于离线强化学习方法,该方法不需要训练判别器网络,在奖励稀疏的情况下同样有效。
技术关键词
策略学习方法
安卓智能
基座
离线
强化学习方法
数据
学习设备
克隆方法
参数
大语言模型
人工智能技术
学习系统
处理器
可读存储介质
程序
文本
基础
算法
模块
系统为您推荐了相关专利信息
工业互联网安全
模型构建方法
生成机制
网络安全态势分析
工业自动化系统
维修决策方法
策略
动作建议
网络健康度
计算机可读取存储介质
图形处理器
输入输出虚拟化
存储器
图形处理单元
电路系统