一种基于策略梯度优化的文本嵌入联合训练方法

AITNT
正文
推荐专利
一种基于策略梯度优化的文本嵌入联合训练方法
申请号:CN202510909973
申请日期:2025-07-02
公开号:CN120806065B
公开日期:2025-12-16
类型:发明专利
摘要
本发明公开了一种基于策略梯度优化的文本嵌入联合训练方法,包括:(1)非对称编码器‑解码器架构;(2)动态奖励对齐机制;(3)基于策略梯度的优化机制;本方法的训练流程如下:1.初始化策略模型πθ;和参考模型πref;2.在一个批次中,对于每个文本对,从当前策略模型中采样一组输出{o1,o2,...,oG},其中G是组的大小,组的大小G为8;3.根据从解码器采样的输出进行解析并计算奖励;(4)对组内奖励进行归一化处理,使用归一化后的奖励计算优势函数;(5)通过最大化目标函数更新策略模型;(6)在训练过程中交叉迭代编码器和解码器。
技术关键词
联合训练方法 前馈神经网络 文本 编码器 策略 解码器架构 BERT模型 输出特征 序列 指令 重构 交叉注意力机制 非线性 掩码矩阵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号