基于军事文档和回答相似度的强化学习训练方法及系统

AITNT
正文
推荐专利
基于军事文档和回答相似度的强化学习训练方法及系统
申请号:CN202411106016
申请日期:2024-08-13
公开号:CN119005290A
公开日期:2024-11-22
类型:发明专利
摘要
本申请提供一种基于军事文档和回答相似度的强化学习训练方法及系统。方法包括:获取参考资料,利用强化学习模型从参考资料中自动提取问题,将问题和参考资料组成样本对,作为训练数据;将问题和参考资料拼接作为强化学习模型的输入,生成模型回答;计算模型回答与参考资料的相似度;基于相似度,评估模型回答对参考资料的忠诚度,得到忠诚度奖励;计算强化学习模型中策略网络的策略损失和价值网络的价值损失;利用损失函数对策略网络和价值网络的网络参数的梯度进行迭代,以更新网络参数。本申请可免去人工标注,有效降低了训练成本,基于相似度奖励,使得模型回答能更好地遵循参考资料,从而提高模型训练效率和质量。
技术关键词
学习训练方法 强化学习模型 忠诚度 军事 策略 学习训练系统 更新网络参数 因子 代表 模块 计算机 处理器 样本 矩阵 数据 文本 存储器
系统为您推荐了相关专利信息
1
信息提取方法
信息提取模型 信息提取方法 文本 计算机可执行指令 图像
2
一种多机械臂配合打胶装置及方法
拾取组件 机械臂 图像采集单元 打胶方法 打胶装置
3
自动驾驶方法、自动驾驶装置和车辆
交通状态信息 车道 自动驾驶方法 自动驾驶装置 计算机程序指令
4
基于RFID技术的防伪验证追踪方法及系统
节点 追踪方法 验证阈值 标记 追踪系统
5
中继卫星任务冲突概率分布的预测方法及系统
神经网络预测模型 时间段 标签体系 画像 数学模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号