摘要
本发明涉及自然语言技术领域,可应用于金融、医疗场景,公开了一种文本生成方法、装置、设备及介质,该方法包括定义状态空间与动作空间之间的空间映射关系,基于空间映射关系构建奖励函数;构建策略网络,基于近端策略优化算法利用奖励函数对策略网络进行训练;运行推理服务,利用训练完成的略网络预测并生成标记以完成文本生成。在本发明中,针对采用传统自回归预测方式生成文本并且需要重复训练的问题,基于近端策略优化算法利用奖励函数对策略网络进行训练,再利用训练完成的策略网络预测并生成标记以完成文本生成。如此,突破传统自回归机制的瓶颈,实现模型在无需重复训练的条件下,具备自适应和持续演进能力。
技术关键词
文本生成方法
策略
语义
标记
基础
序列
自然语言技术
关系
文本生成装置
数据更新
强化学习算法
医疗场景
可读存储介质
变换器
定义
网络优化
系统为您推荐了相关专利信息
高炉出铁口
视觉特征
铁水
动态
非易失性计算机存储介质
产品推荐系统
计算机网络安全
智能预测方法
指数
数据预测模型
切割一体化设备
光纤
切割模块
控制系统
金刚石切割刀片