摘要
本发明提供了一种大语言模型的Token级接受‑拒绝对齐方法,可以应用于自然语言处理技术领域。该方法包括:基于文本训练数据,利用目标大语言模型生成的候选Token集,并对候选Token集进行多策略采样,得到候选Token有序集;将Token筛选过程建模成马尔可夫决策过程,通过轻量化对齐模型计算候选Token有序集中的每个Token的接收‑拒绝概率进而实现对候选Token有序集进行筛选,得到Token筛选集;利用Token筛选集对所述目标大语言模型生成的候选文本序列进行筛选以便将句子级对齐任务分解为Token级二元分类任务,得到与文本训练数据相对应的目标文本样本。
技术关键词
大语言模型
对齐方法
多策略
决策
文本生成模型
序列
数据
标签
网络优化
模型更新
自然语言
图像
样本
阶段
蒸馏
动态
系统为您推荐了相关专利信息
多态系统
维修决策方法
元件
模拟退火算法
搜索算法
环境感知信息
深度强化学习
飞行器
协同方法
飞行状态数据
中转设备
节点
逻辑回归算法
网络探测技术
表达式
图像
相似性检测方法
计算机软件产品
神经网络特征
卷积神经网络模型