摘要
本发明提供了一种偏好数据合成方法和装置,涉及偏好数据合成技术领域,包括:基于大语言模型对预设指令集在每个基本准则作用下的正向响应和负向响应进行处理,确定每个基本准则作用下的方向信息;基于大语言模型得到多样提问指令集中每个多样指令在每个基本准则作用下的向量表示;根据每个多样指令在每个基本准则作用下的向量表示和方向信息,确定满足待训练目标模型一致性要求的目标指令集;基于目标基本准则对应的方向信息对目标指令集中的每个目标指令在目标基本准则下的向量表示进行调控处理,合成待训练目标模型的偏好数据;以缓解由于大语言模型输出具有随机性,导致需多次输出响应和不能充分匹配目标模型特性的技术问题。
技术关键词
大语言模型
指令
人类
数据
可读存储介质
成分分析
处理器
模块
存储器
电子设备
程序
格式
计算机
模板
定义
系统为您推荐了相关专利信息
拥塞控制方法
数据压缩包
拥塞控制算法
压缩算法
接收端
信用风险评估方法
联邦模型
元胞自动机
节点
梯度提升决策树
环境图像数据
数字影像
展示系统
现实技术
可视化界面
稠密深度图
通道注意力机制
深度补全方法
融合特征
激光雷达点云数据