摘要
本发明公开了一种用于自动生成完形填空题干扰项的强化学习系统,通过双重奖励结构对人工标准干扰项赋予固定高奖励,明确高质量标准,对模型生成的干扰候选项基于置信度分数赋予动态奖励,使模型能依据不同奖励反馈精准判断候选项质量层次,减少质量参差不齐;自适应奖励缩放模块根据模型性能调整奖励强度,训练初期放大奖惩信号,助模型快速学习基本生成能力,收敛阶段细化奖励差异,提升候选项质量稳定性;此外,自适应奖励缩放模块持续优化动态奖励映射规则,通过对比历史与当前情况迭代调整转换参数,让奖励机制适应模型变化,为模型提供有效引导,使模型更准确捕捉高质量干扰项特征并优化生成过程,从而更好学习相关特征。
技术关键词
预训练语言模型
强化学习系统
强化学习策略
子模块
强化学习方法
动态
缩放模块
结构模块
sigmoid函数
因子
处理器
阶段
强度
可读存储介质
存储器
语义
文本
计算机
系统为您推荐了相关专利信息
深度学习模型
注意力
矩阵
卷积神经网络模型
坐标
环境感知数据
图像处理
子模块
图像压缩
车载摄像头
互动控制方法
协同控制策略
港口设备
多层次
注意力机制