摘要
本发明公开了一种基于策略梯度优化的文本嵌入联合训练方法,包括:(1)非对称编码器‑解码器架构;(2)动态奖励对齐机制;(3)基于策略梯度的优化机制;本方法的训练流程如下:1.初始化策略模型πθ;和参考模型πref;2.在一个批次中,对于每个文本对,从当前策略模型中采样一组输出{o1,o2,...,oG},其中G是组的大小,组的大小G为8;3.根据从解码器采样的输出进行解析并计算奖励;(4)对组内奖励进行归一化处理,使用归一化后的奖励计算优势函数;(5)通过最大化目标函数更新策略模型;(6)在训练过程中交叉迭代编码器和解码器。
技术关键词
联合训练方法
前馈神经网络
文本
编码器
策略
解码器架构
BERT模型
输出特征
序列
指令
重构
交叉注意力机制
非线性
掩码矩阵