摘要
一种基于数据对齐的大语言模型回复生成方法及系统,它属于大语言模型回复生成领域。本发明解决了现有大语言模型有害输出的风险大的问题。本发明首先通过COD提示收集有害问题数据集和无害问题数据集,并利用收集的数据集对模型进行预训练,再利用收集的数据集和提出的对齐策略对模型进行训练,以最小化有害响应的负对数似然,同时惩罚有害响应,通过梯度上升优化样本损失,以强化模型的正面行为。然后通过向对齐后的模型权重中添加一个安全向量来校正模型的安全性,可以在保持模型原始任务性能的同时补偿模型的安全性损失,显著降低模型产生有害输出的概率。本发明方法可以应用于大语言模型安全回复生成领域。
技术关键词
回复生成方法
大语言模型
数据对齐模块
样本
生成系统
参数
生成对输入
策略
两阶段
变量
校正
风险
正面
系统为您推荐了相关专利信息
文本校正
计算机可读代码
无监督聚类
样本
预训练模型
车辆路径规划方法
样本
车辆路径规划装置
非暂态计算机可读存储介质
参数
指标
训练算法
对抗网络模型
学习算法
自动编码器