摘要
本申请公开了一种基于解码概率纠正的大语言模型对齐方法及装置,属于人工智能领域。通过引入一个轻量级的概率纠正模型,在推理解码过程中实时监控并干预大语言模型的原始生成概率分布。它通过分析大语言模型为每个候选token分配的生成概率,利用概率纠正模型对这些概率进行实时、动态的调整。同时,本发明还引入了基于鉴别器的全局评估机制,以进一步增强生成内容的质量控制和对齐保障。这一鉴别器不仅具备对生成文本进行整体评价的能力,还能识别出潜在的不当内容或偏差,从而为概率纠正模型提供更加全面、准确的反馈。
技术关键词
大语言模型
文本
解码概率
训练集
对齐方法
样本
机制
sigmoid函数
列表
序列
可读存储介质
多层感知机
对齐装置
模块
人类
计算机
误差
处理器
偏差