摘要
本发明公开了用于训练模型的方法、计算机可读存储介质和计算机程序产品。一种用于训练模型的方法包括:接收训练数据集,训练数据集包括复杂指令数据和相关联的验证器;使待训练的模型基于复杂指令数据生成输出;基于验证器对输出执行混合验证,混合验证包括基于预定义规则脚本的验证和基于大语言模型裁判的语义判断;对输出执行意图检查,意图检查用于判断输出是否满足复杂指令数据中的指令的意图;以及基于意图检查的结果和混合验证的结果来更新待训练的模型的参数。根据本发明的方法克服了利用指令任务强化学习的技术导致被训练的模型对指令任务过拟合的问题,提升了指令任务强化学习过程的鲁棒性和训练效率。
技术关键词
指令
意图
数据生成输出
大语言模型
计算机程序产品
检测器
脚本
可读存储介质
蜜罐
陷阱
语义
验证规则
复杂度
参数
逻辑
鲁棒性
处理器
模式
系统为您推荐了相关专利信息
多维索引结构
关系型数据库
分布式存储系统
备份恢复方法
分布式计算框架
点击率预测模型
商品推荐方法
编码器
注意力
框架
旅游场景
决策方法
语句
方言词汇
预训练语言模型