摘要
基于分布式强化学习的语言指令统一策略表征控制方法及装置,涉及人工智能技术领域,该方法包括:接收自然语言获得语言指令;编码历史轨迹;基于分布式语言引导策略构建统一策略表征的离散价值分布模型;基于模型对于语言指令计算价值分布估计;通过最大化语言指令嵌入与轨迹嵌入之间的互信息增强指令与轨迹间的对应关系,实现任务表征的轨迹层次语义对齐,将语言指令策略嵌入到统一策略表征空间;基于价值分布估计和对齐结果,更新统一策略表征网络的参数;从统一策略空间中抽取策略并基于该策略执行语言指令。统一策略表征框架提升了智能体对不同语言指令对应任务的区分能力,为智能体系统中的统一策略表征和跨任务智能决策奠定基础。
技术关键词
分布式强化学习
自然语言
语义
生成轨迹
指令控制装置
参数
对齐模块
信息编码
编码器
智能体系统
离线
序列
可读存储介质
人工智能技术
策略更新
处理器