摘要
本发明公开了一种轨道交通智能客服专家混合大语言模型,涉及大语言模型技术领域,步骤一:数据初始化;步骤二:交互与数据采样;步骤三:离散动作训练,使用深度Q网络处理离散动作选择;步骤四:连续动作训练,使用策略梯度方法优化连续策略;步骤五:联合训练;步骤六:输出最优策略,该发明,离散动作训练中使用深度Q网络处理离散动作选择,连续动作训练中使用策略梯度方法优化连续策略,再配合联合训练,实现两种方法的协同优化,提升模型在复杂决策问题中的表现;联合训练中通过共享奖励信号和状态特征,通过对用户行为习惯、家庭身份和消费习惯三个维度进行数据采集,可以提高模型对用户更精确的训练输出。
技术关键词
轨道交通智能
大语言模型
深度Q网络
客服
梯度方法
特征提取网络
历史订单数据
联合损失函数
家庭
特征值
习惯
身份
生成轨迹
策略更新
参数
数据存储
模块
系统为您推荐了相关专利信息
医疗数据处理方法
大语言模型
语句
分片
计算机执行指令