摘要
本发明涉及大型语言模型技术领域,特别涉及一种信息推理方法、装置、计算机设备以及存储介质,利用多智能体辩论框架,通过智能体之间进行任务辩论促进协作,学习智能体决策网络的团队联合动作来指导单个智能体策略的更新,强调智能体之间的行为差异,使得各个智能体在面对复杂任务时能够按照各自预设的角色身份,增量地为任务解决方案做出贡献,提高智能体决策网络的推理的准确性以及效率。
技术关键词
决策
推理方法
参数
混合网络
文本
强化学习方法
答案
推理网络
变量
语言模型技术
异性
生成算法
计算机设备
度计算方法
推理装置
处理器
模块
存储器