基于交互轨迹的策略优化方法、装置、设备及介质

AITNT
正文
推荐专利
基于交互轨迹的策略优化方法、装置、设备及介质
申请号:CN202510722327
申请日期:2025-05-30
公开号:CN120654768A
公开日期:2025-09-16
类型:发明专利
摘要
本发明涉及人工智能技术领域,可应用于机器人策略训练、金融科技及医疗健康等业务场景中,公开了一种基于交互轨迹的策略优化方法、装置、设备及介质,包括:定义环境信息并初始化策略参数,强化学习智能体与环境交互生成动作与状态序列并记录交互轨迹,基于轨迹优化策略生成最优动作策略,进而生成原始经验数据集,通过监督学习优化预训练模型得到目标策略模型。本发明通过强化学习智能体与环境交互生成任务相关的高质量轨迹,并在此基础上提取原始经验数据,结合监督学习机制对预训练策略模型进行优化,有效提升样本利用效率,同时增强模型在多任务条件下的泛化能力与执行鲁棒性。
技术关键词
策略优化方法 动作策略 序列 轨迹 生成动作 机器人执行模块 数据 策略优化装置 参数 指令 网络结构 预训练模型 人工智能技术 定义 医疗健康 策略更新 处理器 程序
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号