基于分布式强化学习的统一策略表征控制方法及装置

AITNT
正文
推荐专利
基于分布式强化学习的统一策略表征控制方法及装置
申请号:CN202510872081
申请日期:2025-06-26
公开号:CN120874886A
公开日期:2025-10-31
类型:发明专利
摘要
基于分布式强化学习的语言指令统一策略表征控制方法及装置,涉及人工智能技术领域,该方法包括:接收自然语言获得语言指令;编码历史轨迹;基于分布式语言引导策略构建统一策略表征的离散价值分布模型;基于模型对于语言指令计算价值分布估计;通过最大化语言指令嵌入与轨迹嵌入之间的互信息增强指令与轨迹间的对应关系,实现任务表征的轨迹层次语义对齐,将语言指令策略嵌入到统一策略表征空间;基于价值分布估计和对齐结果,更新统一策略表征网络的参数;从统一策略空间中抽取策略并基于该策略执行语言指令。统一策略表征框架提升了智能体对不同语言指令对应任务的区分能力,为智能体系统中的统一策略表征和跨任务智能决策奠定基础。
技术关键词
分布式强化学习 自然语言 语义 生成轨迹 指令控制装置 参数 对齐模块 信息编码 编码器 智能体系统 离线 序列 可读存储介质 人工智能技术 策略更新 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号