摘要
本发明公开了一种基于大语言模型和强化学习的多干扰项生成方法,涉及人工智能技术领域。包括:获取EQG‑RACE数据,将EQG‑RACE数据划分为训练集和验证集;建立基于文字指令的干扰项生成模型;将训练集输入干扰项生成模型并进行有监督微调处理,得到有监督微调后的干扰项生成模型;将验证集输入有监督微调后的干扰项生成模型,根据生成结果进行排序;构建奖励模型,根据排序结果得到奖励模型的训练数据集,并计算成对排名损失;基于奖励模型和强化学习进一步训练有监督微调后的干扰项生成模型,得到最高质量的多干扰项。本发明在干扰项生成质量上达到满足现实出题需求的水平。
技术关键词
大语言模型
生成方法
文本
解码器
指令
文章
答案
人工智能技术
数据
训练集
格式
模板
线性
样本
矩阵
参数
系统为您推荐了相关专利信息
智能语音助手
语音特征提取
初始聚类中心
检索算法
云端
虚拟同步机
分布式电源
孤岛微电网
电压补偿方法
分布式一致性算法
导游无人机
四旋翼结构
起落架组件
指令
无线充电接收线圈
文案生成方法
文本
图像生成模型
生成文案
生成图文
前置机系统
流控方法
子系统
可编程交换机
非暂态计算机可读存储介质