摘要
本发明提供基于层次混合专家模型的大模型多偏好对齐方法及装置,涉及自然语言处理技术领域。该方法包括:获取预训练的单目标微调模型;提取模型中每个单目标策略的目标向量,通过任务向量奇异值分解法分解目标向量,生成低秩适配器作为每个单目标的LoRA专家;采用PCB‑merging和Free‑merging融合模型进行处理,获得多目标LoRA专家;生成线性路由层,构造奖励损失函数;采用镜像梯度下降和平滑切比雪夫标量化对损失函数进行优化,获得多目标的路由专家;设计权重路由器;根据多目标LoRA专家、多目标的路由专家和权重路由器,构建层次化的混合专家模型;将获取的用户输入的提示词和偏好向量,输入层次化的混合专家模型中,输出符合用户的偏好。采用本发明可提高推理效率。
技术关键词
对齐方法
计算机可读取存储介质
路由器
切比雪夫
奇异值分解法
适配器
计算机可读指令
对齐设备
对齐装置
线性
镜像
策略
预训练模型
参数
自然语言
处理器
存储器
矩阵
动态
定义
系统为您推荐了相关专利信息
智能路由器
网络优化方法
通信设备
服务器
接入WiFi网络
负载均衡设备
二层交换机
网关设备
防护设备
数据中心
网络接口
消息
机器可读介质
逻辑路由器
逻辑交换机
数据传输方法
路由器
非易失性计算机可读存储介质
数据传输装置
计算机程序指令
移动设备
无人机
边缘计算方法
深度Q网络
神经网络参数