一种基于评价反馈强化学习的错误抑制防护方法、系统及存储介质

正文

推荐专利

申请号：CN202510208375

申请日期：2025-02-24

公开号：CN120124602A

公开日期：2025-06-10

类型：发明专利

摘要

本发明公开了一种基于评价反馈强化学习的错误抑制防护方法、系统及存储介质，涉及自然语言处理领域，接收初始输入序列和相关材料，基于特定于任务的生成提示生成初始输出；基于评价指标，使用显式模型比较初始输出和正确事实，得到量化的质量评价；使用语言大模型生成各评价指标对应的大模型易理解的评价反馈；使用语言大模型生成新的输出，并将新的输出作初始输出，进行迭代直到评价指标满足要求，生成改进输出。本发明旨在解决现有生成式人工智能模型面临的易生成虚假信息和引用不准确的问题，从多个评价维度生成自然语言反馈，不断迭代优化模型，提高生成式人工智能的可靠性和安全性，为生成式人工智能的高可靠性应用提供全新思路和技术支持。

技术关键词

防护方法指标序列生成方法输出模块生成自然语言人工智能模型全新思路防护系统阶段计算机度量对象定义

系统为您推荐了相关专利信息

一种顶管下穿施工过程的自动传感监测系统及方法

数据采集系统远程管理终端传感监测系统远程监控中心数据处理系统

一种基于transformer的安全帽检测系统及方法

移动拍摄设备场景安全帽检测方法注意力像素块

一种基于改进鸽群算法的个性化学习资源推荐方法及系统

学习资源推荐方法鸽群算法个性化特征资源推荐模型知识点

一种结合边坡变形监测与数值模拟的岩土工程稳定性预警系统方法

边坡变形监测岩土工程稳定性实时监测数据三维地质模型预警系统

并联三电平ANPC逆变器开路故障容错控制方法及系统

三电平模型预测控制策略混合结构网侧电流逆变器开路故障

一种基于评价反馈强化学习的错误抑制防护方法、系统及存储介质

站点导航

APP 下载