一种基于策略梯度优化的文本嵌入联合训练方法

正文

推荐专利

申请号：CN202510909973

申请日期：2025-07-02

公开号：CN120806065B

公开日期：2025-12-16

类型：发明专利

摘要

本发明公开了一种基于策略梯度优化的文本嵌入联合训练方法，包括：(1)非对称编码器‑解码器架构；(2)动态奖励对齐机制；(3)基于策略梯度的优化机制；本方法的训练流程如下：1.初始化策略模型πθ；和参考模型πref；2.在一个批次中，对于每个文本对，从当前策略模型中采样一组输出{o1，o2，...，oG}，其中G是组的大小，组的大小G为8；3.根据从解码器采样的输出进行解析并计算奖励；(4)对组内奖励进行归一化处理，使用归一化后的奖励计算优势函数；(5)通过最大化目标函数更新策略模型；(6)在训练过程中交叉迭代编码器和解码器。

技术关键词

联合训练方法前馈神经网络文本编码器策略解码器架构 BERT模型输出特征序列指令重构交叉注意力机制非线性掩码矩阵

一种基于策略梯度优化的文本嵌入联合训练方法

站点导航

APP 下载