摘要
本发明公开了一种基于神经信号驱动的大语言模型对齐方法及装置,包括:S1.在大语言模型训练阶段,针对特定控制任务构建正面和负面反应样本,作为对比样本集;S2.通过对比样本集从两个方向引导大模型生成方向,定位并获得导致大语言模型产生不同输出行为的神经控制信号,包括正向控制信号和负向控制信号;S3.在大语言模型推理阶段,基于线性子空间假设,通过融合正向控制信号和负向控制信号的特征信号,解耦特征无关信号,提取概念控制信号;S4.利用概念控制信号,对大语言模型施加控制,实现对大模型的神经调控;本发明在维持模型原有生成能力的同时,有效地提高了模型对齐性能,为大模型的可持续性对齐和控制提供了新的视角和工具。
技术关键词
对齐方法
大语言模型
概念
样本
注意力参数
注意力机制
线性
阶段
对齐装置
处理器
模块
驱动信号
矩阵
正面
可读存储介质
存储器
代表