基于分布式强化学习的统一策略表征控制方法及装置

正文

推荐专利

申请号：CN202510872081

申请日期：2025-06-26

公开号：CN120874886A

公开日期：2025-10-31

类型：发明专利

摘要

基于分布式强化学习的语言指令统一策略表征控制方法及装置，涉及人工智能技术领域，该方法包括：接收自然语言获得语言指令；编码历史轨迹；基于分布式语言引导策略构建统一策略表征的离散价值分布模型；基于模型对于语言指令计算价值分布估计；通过最大化语言指令嵌入与轨迹嵌入之间的互信息增强指令与轨迹间的对应关系，实现任务表征的轨迹层次语义对齐，将语言指令策略嵌入到统一策略表征空间；基于价值分布估计和对齐结果，更新统一策略表征网络的参数；从统一策略空间中抽取策略并基于该策略执行语言指令。统一策略表征框架提升了智能体对不同语言指令对应任务的区分能力，为智能体系统中的统一策略表征和跨任务智能决策奠定基础。

技术关键词

分布式强化学习自然语言语义生成轨迹指令控制装置参数对齐模块信息编码编码器智能体系统离线序列可读存储介质人工智能技术策略更新处理器

基于分布式强化学习的统一策略表征控制方法及装置

站点导航

APP 下载