摘要
本申请公开了一种交通控制及控制模型训练方法、装置、设备、介质及产品,应用于机器学习领域。本方法通过GPT‑4得到参考结果,然后以提高输出参考结果的概率作为训练目标,得到第二大语言模型。接着,以目标评论家模型评分越高的待定结果对应的输出概率越高作为训练目标,得到目标大语言模型。本方案,将大语言模型应用在交通控制场景中,使大语言模型模仿学习GPT‑4产生的高质量决策和推理轨迹,同时引入评论家模型指导大语言模型的策略优化,使其评估并改进大语言模型的控制决策。最终得到的目标大语言模型可以产生比GPT‑4更具成本效益且更有效的控制策略。
技术关键词
大语言模型
控制模型训练方法
控制交通信号灯
交通控制方法
文本
计算机程序指令
模板
样本
决策
输入模块
参数
计算机程序产品
预训练语言模型
时间段
模型训练装置
电子设备
可读存储介质
系统为您推荐了相关专利信息
层构建方法
功能模块
对象
语义向量
生成对抗网络模型
情感分析方法
生成技术
多模态情感分析
数据
检索算法
多模态
意图
文本编码器
参数
Softmax函数
报表系统
问答模型
商业智能平台
数据存储模块
MPP数据库