基于军事文档和回答相似度的强化学习训练方法及系统

正文

推荐专利

申请号：CN202411106016

申请日期：2024-08-13

公开号：CN119005290A

公开日期：2024-11-22

类型：发明专利

摘要

本申请提供一种基于军事文档和回答相似度的强化学习训练方法及系统。方法包括：获取参考资料，利用强化学习模型从参考资料中自动提取问题，将问题和参考资料组成样本对，作为训练数据；将问题和参考资料拼接作为强化学习模型的输入，生成模型回答；计算模型回答与参考资料的相似度；基于相似度，评估模型回答对参考资料的忠诚度，得到忠诚度奖励；计算强化学习模型中策略网络的策略损失和价值网络的价值损失；利用损失函数对策略网络和价值网络的网络参数的梯度进行迭代，以更新网络参数。本申请可免去人工标注，有效降低了训练成本，基于相似度奖励，使得模型回答能更好地遵循参考资料，从而提高模型训练效率和质量。

技术关键词

学习训练方法强化学习模型忠诚度军事策略学习训练系统更新网络参数因子代表模块计算机处理器样本矩阵数据文本存储器

系统为您推荐了相关专利信息

信息提取方法

信息提取模型信息提取方法文本计算机可执行指令图像

一种多机械臂配合打胶装置及方法

拾取组件机械臂图像采集单元打胶方法打胶装置

自动驾驶方法、自动驾驶装置和车辆

交通状态信息车道自动驾驶方法自动驾驶装置计算机程序指令

基于RFID技术的防伪验证追踪方法及系统

节点追踪方法验证阈值标记追踪系统

中继卫星任务冲突概率分布的预测方法及系统

神经网络预测模型时间段标签体系画像数学模型

基于军事文档和回答相似度的强化学习训练方法及系统

站点导航

APP 下载